python常用数据重复项处理方法


Posted in Python onNovember 22, 2019

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

python常用数据重复项处理方法

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

python常用数据重复项处理方法

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对三水点靠木的支持。

Python 相关文章推荐
Python实现发送email的几种常用方法
Aug 18 Python
在Python中使用__slots__方法的详细教程
Apr 28 Python
在Django的模型和公用函数中使用惰性翻译对象
Jul 27 Python
python 文件操作删除某行的实例
Sep 04 Python
python中的随机函数小结
Jan 27 Python
Python中的 enum 模块源码详析
Jan 09 Python
使用python 写一个静态服务(实战)
Jun 28 Python
wxPython之wx.DC绘制形状
Nov 19 Python
30行Python代码实现高分辨率图像导航的方法
May 22 Python
Python机器学习算法之决策树算法的实现与优缺点
May 13 Python
python 中的@运算符使用
May 26 Python
Python虚拟环境virtualenv是如何使用的
Jun 20 Python
Python pickle模块实现对象序列化
Nov 22 #Python
python绘制无向图度分布曲线示例
Nov 22 #Python
Python如何实现强制数据类型转换
Nov 22 #Python
python实现宿舍管理系统
Nov 22 #Python
python实现简易淘宝购物
Nov 22 #Python
Python调用graphviz绘制结构化图形网络示例
Nov 22 #Python
python实现简单图书管理系统
Nov 22 #Python
You might like
让你的网站首页自动选择语言转跳
2006/12/06 PHP
PHP 反向排序和随机排序代码
2010/06/30 PHP
php模板中出现空行解决方法
2011/03/08 PHP
php超快高效率统计大文件行数
2015/07/05 PHP
JavaScript 函数式编程的原理
2009/10/16 Javascript
Ext grid 添加右击菜单
2009/11/26 Javascript
判断iframe是否加载完成的完美方法
2010/01/07 Javascript
基于JQuery制作的产品广告效果
2010/12/08 Javascript
firefox下jquery iframe刷新页面提示会导致重复之前动作
2012/12/17 Javascript
js设置控件的隐藏与显示的两种方法
2014/08/21 Javascript
js闭包实例汇总
2014/11/09 Javascript
jQuery实现动态表单验证时文本框抖动效果完整实例
2015/08/21 Javascript
初步使用bootstrap快速创建页面
2016/03/03 Javascript
js实现贪吃蛇小游戏(容易理解)
2017/01/22 Javascript
基于JavaScript实现拖动滑块效果
2017/02/16 Javascript
vue中锚点的三种方法
2018/07/06 Javascript
基于jQuery ztree实现表格风格的树状结构
2018/08/31 jQuery
你应该了解的JavaScript Array.map()五种用途小结
2018/11/14 Javascript
Vue源码解析之数据响应系统的使用
2019/04/24 Javascript
前端js中的事件循环eventloop机制详解
2019/05/15 Javascript
js使用文件流下载csv文件的实现方法
2019/07/15 Javascript
聊聊鉴权那些事(推荐)
2019/08/22 Javascript
Vue 数据绑定的原理分析
2020/11/16 Javascript
Python统计时间内的并发数代码实例
2019/12/28 Python
python实现ssh及sftp功能(实例代码)
2020/03/16 Python
详解Python 实现 ZeroMQ 的三种基本工作模式
2020/03/24 Python
杭州时比特电子有限公司SQL
2013/08/22 面试题
MYSQL基础面试题
2012/05/13 面试题
幼儿园六一儿童节主持节目串词
2014/03/21 职场文书
《美丽的丹顶鹤》教学反思
2014/04/22 职场文书
铣床操作工岗位职责
2014/06/13 职场文书
清洁员岗位职责
2015/02/15 职场文书
鲁滨逊漂流记读书笔记
2015/06/26 职场文书
php 获取音视频时长,PHP 利用getid3 获取音频文件时长等数据
2021/04/01 PHP
Django如何与Ajax交互
2021/04/29 Python
Python机器学习之基础概述
2021/05/19 Python