python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
python3.3教程之模拟百度登陆代码分享
Jan 16 Python
Python logging管理不同级别log打印和存储实例
Jan 19 Python
Python 查找list中的某个元素的所有的下标方法
Jun 27 Python
Python面向对象实现一个对象调用另一个对象操作示例
Apr 08 Python
python 画二维、三维点之间的线段实现方法
Jul 07 Python
python中设置超时跳过,超时退出的方式
Dec 13 Python
python飞机大战 pygame游戏创建快速入门详解
Dec 17 Python
python使用Geany编辑器配置方法
Feb 21 Python
OpenCV利用python来实现图像的直方图均衡化
Oct 21 Python
Pycharm配置lua编译环境过程图解
Nov 28 Python
解决Jupyter-notebook不弹出默认浏览器的问题
Mar 30 Python
Python爬虫入门案例之爬取二手房源数据
Oct 16 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
php split汉字
2009/06/05 PHP
PHP jQuery表单,带验证具体实现方法
2014/02/15 PHP
常见PHP数据库解决方案分析介绍
2015/09/24 PHP
浅谈PHP拦截器之__set()与__get()的理解与使用方法
2016/10/18 PHP
php使用curl模拟浏览器表单上传文件或者图片的方法
2018/11/10 PHP
PDO::exec讲解
2019/01/28 PHP
jQuery 学习6 操纵元素显示效果的函数
2010/02/07 Javascript
JS随机生成不重复数据的实例方法
2013/07/17 Javascript
Javascript检查图片大小不要让大图片撑破页面
2014/11/04 Javascript
JS使用oumousemove和oumouseout动态改变图片显示的方法
2015/03/31 Javascript
js+flash实现的5图变换效果广告代码(附演示与demo源码下载)
2016/04/01 Javascript
JS中parseInt()和map()用法分析
2016/12/16 Javascript
微信小程序 wx:for的使用实例详解
2017/04/27 Javascript
微信小程序多列选择器range-key使用详解
2020/03/30 Javascript
JavaScript体验异步更好的解决办法
2018/01/08 Javascript
node跨域转发 express+http-proxy-middleware的使用
2018/05/31 Javascript
vue2.0实现的tab标签切换效果(内容可自定义)示例
2019/02/11 Javascript
nodejs+express最简易的连接数据库的方法
2020/12/23 NodeJs
Django调用百度AI接口实现人脸注册登录代码实例
2020/04/23 Python
PyCharm配置anaconda环境的步骤详解
2020/07/31 Python
如何在vscode中安装python库的方法步骤
2021/01/06 Python
python Matplotlib基础--如何添加文本和标注
2021/01/26 Python
香港百佳网上超级市场:PARKNSHOP.com
2020/06/10 全球购物
生产副总岗位职责
2013/11/28 职场文书
大学生关于奋斗的演讲稿
2014/01/09 职场文书
2014的自我评价
2014/01/13 职场文书
优秀经理事迹材料
2014/02/01 职场文书
商学院大学生求职的自我评价
2014/03/12 职场文书
大专生自荐书范文
2014/06/22 职场文书
工会优秀工作者事迹
2014/08/17 职场文书
党的群众路线对照检查材料范文
2014/09/24 职场文书
研究生就业推荐表导师评语
2014/12/31 职场文书
民事撤诉申请书范本
2015/05/18 职场文书
公安干警正风肃纪心得体会
2016/01/15 职场文书
新店开业策划方案怎么书写?
2019/07/05 职场文书
Java中的继承、多态以及封装
2022/04/11 Java/Android