Python对多属性的重复数据去重实例


Posted in Python onApril 18, 2018

python中的pandas模块中对重复数据去重步骤:

1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;

2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。

注释:

如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认会判断全部咧,如果在这两个方法中加入了指定的属性名(或者称为列名),例如:frame.drop_duplicates(['state']),则指定部分列(state列)进行重复项的判断。

具体实例如下:

>>> import pandas as pd 
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']} 
>>> frame=pd.DataFrame(data) 
>>> frame 
 pop state 
0 a  1 
1 b  1 
2 c  2 
3 d  2 
>>> IsDuplicated=frame.duplicated() 
>>> print IsDuplicated 
0 False 
1 False 
2 False 
3 False 
dtype: bool 
>>> frame=frame.drop_duplicates(['state']) 
>>> frame 
 pop state 
0 a  1 
2 c  2 
>>> IsDuplicated=frame.duplicated(['state']) 
>>> print IsDuplicated 
0 False 
2 False 
dtype: bool 
>>>

以上这篇Python对多属性的重复数据去重实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
centos 下面安装python2.7 +pip +mysqld
Nov 18 Python
Python实现单词拼写检查
Apr 25 Python
python计算时间差的方法
May 20 Python
解决Django模板无法使用perms变量问题的方法
Sep 10 Python
Python统计纯文本文件中英文单词出现个数的方法总结【测试可用】
Jul 25 Python
Python批量查询关键词微信指数实例方法
Jun 27 Python
python如何将多个PDF进行合并
Aug 13 Python
扩展Django admin的list_filter()可使用范围方法
Aug 21 Python
学python最电脑配置有要求么
Jul 05 Python
Django model重写save方法及update踩坑详解
Jul 27 Python
python中通过pip安装库文件时出现“EnvironmentError: [WinError 5] 拒绝访问”的问题及解决方案
Aug 11 Python
python爬取招聘要求等信息实例
Nov 20 Python
Python3实现的字典遍历操作详解
Apr 18 #Python
Python基于递归算法实现的汉诺塔与Fibonacci数列示例
Apr 18 #Python
python 删除列表里所有空格项的方法总结
Apr 18 #Python
python list删除元素时要注意的坑点分享
Apr 18 #Python
python爬虫之xpath的基本使用详解
Apr 18 #Python
基于python list对象中嵌套元组使用sort时的排序方法
Apr 18 #Python
python购物车程序简单代码
Apr 18 #Python
You might like
PHP实现分页的一个示例
2006/10/09 PHP
PHP中error_log()函数的使用方法
2015/01/20 PHP
laravel 修改记住我功能的cookie保存时间的方法
2019/10/14 PHP
Javascript中Eval函数的使用
2010/03/23 Javascript
js 全兼容可高亮二级缓冲折叠菜单
2010/06/04 Javascript
javaScript实现浮点数转十六进制字符
2013/10/29 Javascript
浅析JQuery UI Dialog的样式设置问题
2013/12/18 Javascript
js中的for如何实现foreach中的遍历
2014/05/31 Javascript
js立即执行函数: (function ( ){})( ) 与 (function ( ){}( )) 有什么区别?
2015/11/18 Javascript
Node.js编写爬虫的基本思路及抓取百度图片的实例分享
2016/03/12 Javascript
在JavaScript中调用Java类和接口的方法
2016/09/07 Javascript
js 转json格式的字符串为对象或数组(前后台)的方法
2016/11/02 Javascript
Javascript 制作图形验证码实例详解
2016/12/22 Javascript
Vue.use源码分析
2017/04/22 Javascript
基于Vue实现关键词实时搜索高亮显示关键词
2018/07/21 Javascript
JS实现数组的增删改查操作示例
2018/08/29 Javascript
JS中使用new Option()实现时间联动效果
2018/12/10 Javascript
解决vux 中popup 组件Mask 遮罩在最上层的问题
2020/11/03 Javascript
[00:35]DOTA2上海特级锦标赛 EG战队宣传片
2016/03/04 DOTA
[49:43]VG vs FNATIC 2019国际邀请赛小组赛 BO2 第一场 8.15
2019/08/17 DOTA
介绍Python中几个常用的类方法
2015/04/08 Python
获取Django项目的全部url方法详解
2017/10/26 Python
Python获取当前函数名称方法实例分享
2018/01/18 Python
Python利用Faiss库实现ANN近邻搜索的方法详解
2020/08/03 Python
Python 通过爬虫实现GitHub网页的模拟登录的示例代码
2020/08/17 Python
施华洛世奇中国官网:SWAROVSKI中国
2020/06/16 全球购物
舞蹈教育学专业推荐信
2013/11/27 职场文书
公司离职证明范本
2014/01/13 职场文书
公务员群众路线专题民主生活会发言材料
2014/09/17 职场文书
2014各大专业毕业生自我评价
2014/09/17 职场文书
单位法定代表人授权委托书
2014/09/20 职场文书
夫妻分居协议书范本(有子女版)
2014/11/01 职场文书
先进教师事迹材料
2014/12/16 职场文书
毕业设计论文致谢词
2015/05/14 职场文书
家长必看:义务教育,不得以面试 评测等名义选拔学生
2019/07/09 职场文书
用Python编写简单的gRPC服务的详细过程
2021/07/04 Python