python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
python实现探测socket和web服务示例
Mar 28 Python
Python3 能振兴 Python的原因分析
Nov 28 Python
解决Mac安装scrapy失败的问题
Jun 13 Python
Python调用adb命令实现对多台设备同时进行reboot的方法
Oct 15 Python
Python操作json的方法实例分析
Dec 06 Python
python实现栅栏加解密 支持密钥加密
Mar 20 Python
18个Python脚本可加速你的编码速度(提示和技巧)
Oct 17 Python
python如何查看网页代码
Jun 07 Python
Python如何执行精确的浮点数运算
Jul 31 Python
Python pickle模块常用方法代码实例
Oct 10 Python
python+opencv实现车道线检测
Feb 19 Python
python 如何用terminal输入参数
May 25 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
在任意字符集下正常显示网页的方法一
2007/04/01 PHP
纯PHP代码实现支付宝批量付款
2015/12/24 PHP
javascript复制对象使用说明
2011/06/28 Javascript
JS完成代码前最好对其做5件事
2013/04/07 Javascript
JS实现日期加减的方法
2013/11/29 Javascript
innerHTML,outerHTML,innerText,outerText的用法及区别解析
2013/12/16 Javascript
jQuery简单实现banner图片切换
2014/01/02 Javascript
JavaScript实现弹出子窗口并传值给父窗口
2014/12/18 Javascript
javascript自定义滚动条实现代码
2020/04/20 Javascript
JS生成某个范围的随机数【四种情况详解】
2016/04/20 Javascript
js实现旋转木马效果
2017/03/17 Javascript
JS正则表达式验证中文字符
2017/05/08 Javascript
vue实现图书管理demo详解
2017/10/17 Javascript
Vue.js在数组中插入重复数据的实现代码
2017/11/17 Javascript
vue+django实现一对一聊天功能的实例代码
2019/07/17 Javascript
python开发之thread实现布朗运动的方法
2015/11/11 Python
python制作websocket服务器实例分享
2016/11/20 Python
Django与JS交互的示例代码
2017/08/23 Python
python多线程之事件Event的使用详解
2018/04/27 Python
在PyCharm导航区中打开多个Project的关闭方法
2019/01/17 Python
python 利用pandas将arff文件转csv文件的方法
2019/02/12 Python
对Python Pexpect 模块的使用说明详解
2019/02/14 Python
ubuntu 16.04下python版本切换的方法
2019/06/14 Python
python opencv实现证件照换底功能
2019/08/19 Python
Python3的socket使用方法详解
2020/02/18 Python
非常震撼的纯CSS3人物行走动画
2016/02/24 HTML / CSS
CSS3自定义滚动条样式的示例代码
2017/08/21 HTML / CSS
用纯CSS3实现网页中常见的小箭头
2017/10/16 HTML / CSS
突破canvas语法限制 让他支持链式语法
2012/12/24 HTML / CSS
微软新西兰官方网站:Microsoft New Zealand
2018/08/17 全球购物
Exoticca英国:以最优惠的价格提供豪华异国情调旅行
2018/10/18 全球购物
对象的序列化(serialization)类是面向流的,应如何将对象写入到随机存取文件中
2015/06/22 面试题
廉洁使者实施方案
2014/03/29 职场文书
2015元旦联欢晚会结束语
2014/12/14 职场文书
销售员自我评价
2015/03/11 职场文书
《普罗米修斯》教学反思
2016/02/22 职场文书