python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
python文件操作之目录遍历实例分析
May 20 Python
python自动翻译实现方法
May 28 Python
Python实现TCP/IP协议下的端口转发及重定向示例
Jun 14 Python
Python实现批量更换指定目录下文件扩展名的方法
Sep 19 Python
Python3.4编程实现简单抓取爬虫功能示例
Sep 14 Python
Python 实现购物商城,含有用户入口和商家入口的示例
Sep 15 Python
Python探索之URL Dispatcher实例详解
Oct 28 Python
实例介绍Python中整型
Feb 11 Python
Python多线程thread及模块使用实例
Apr 28 Python
python 负数取模运算实例
Jun 03 Python
python代码实现图书管理系统
Nov 30 Python
python 使用xlsxwriter循环向excel中插入数据和图片的操作
Jan 01 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
php下获取客户端ip地址的函数
2010/03/15 PHP
PHP实现的简单日历类
2014/11/29 PHP
PHP获取一年有几周以及每周开始日期和结束日期
2015/08/06 PHP
PHP的cookie与session原理及用法详解
2019/09/27 PHP
Javascript之文件操作
2007/03/07 Javascript
前端开发必须知道的JS之原型和继承
2010/07/06 Javascript
jQuery中queue()方法用法实例
2014/12/29 Javascript
Easyui Treegrid改变默认图标的方法
2016/04/29 Javascript
Javascript打印局部页面实例
2016/06/21 Javascript
深入浅出 jQuery中的事件机制
2016/08/23 Javascript
JS动态加载脚本并执行回调操作
2016/08/24 Javascript
Angular的$http的ajax的请求操作(推荐)
2017/01/10 Javascript
JS实现向iframe中表单传值的方法
2017/03/24 Javascript
nodejs socket实现的服务端和客户端功能示例
2017/06/02 NodeJs
underscore之Collections_动力节点Java学院整理
2017/07/10 Javascript
ReactNative实现Toast的示例
2017/12/31 Javascript
微信小程序开发之自定义tabBar的实现
2018/09/06 Javascript
vue-cli3搭建项目的详细步骤
2018/12/05 Javascript
jQuery实现移动端笔触canvas电子签名
2020/05/21 jQuery
Vue自动构建发布脚本的方法示例
2020/07/24 Javascript
在vue中获取wangeditor的html和text的操作
2020/10/23 Javascript
python 数据清洗之数据合并、转换、过滤、排序
2017/02/12 Python
解决安装pyqt5之后无法打开spyder的问题
2019/12/13 Python
keras自定义回调函数查看训练的loss和accuracy方式
2020/05/23 Python
Python调用OpenCV实现图像平滑代码实例
2020/06/19 Python
Python 3.9的到来到底是意味着什么
2020/10/14 Python
selenium设置浏览器为headless无头模式(Chrome和Firefox)
2021/01/08 Python
Theory美国官网:后现代都市风时装品牌
2018/05/09 全球购物
《掌声》教学反思
2014/02/23 职场文书
安全宣传标语
2014/06/10 职场文书
2014七年级班主任工作总结
2014/12/05 职场文书
护理专业自我评价
2015/03/11 职场文书
2016年学校禁毒宣传活动工作总结
2016/04/05 职场文书
MySQL空间数据存储及函数
2021/09/25 MySQL
关于@OnetoMany关系映射的排序问题,使用注解@OrderBy
2021/12/06 Java/Android
“鬼灭之刃”热度不减,其成功背后的原因是什么?
2022/03/22 日漫