pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python动态监控日志内容的示例
Feb 16 Python
Python 异常处理实例详解
Mar 12 Python
调试Python程序代码的几种方法总结
Apr 28 Python
Python中逗号的三种作用实例分析
Jun 08 Python
python套接字流重定向实例汇总
Mar 03 Python
python入门教程 python入门神图一张
Mar 05 Python
tensorflow1.0学习之模型的保存与恢复(Saver)
Apr 23 Python
pyqt5的QComboBox 使用模板的具体方法
Sep 06 Python
python flask框架实现传数据到js的方法分析
Jun 11 Python
python构造函数init实例方法解析
Jan 19 Python
python 实现逻辑回归
Dec 30 Python
用Python远程登陆服务器的步骤
Apr 16 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
一个程序下载的管理程序(二)
2006/10/09 PHP
在PHP中使用Sockets 从Usenet中获取文件
2008/01/10 PHP
php批量缩放图片的代码[ini参数控制]
2011/02/11 PHP
PHP SESSION的增加、删除、修改、查看操作
2015/03/20 PHP
使用新浪微博API的OAuth认证发布微博实例
2015/03/27 PHP
PHP计算数组中值的和与乘积的方法(array_sum与array_product函数)
2016/04/01 PHP
PHP实现中国公民身份证号码有效性验证示例代码
2017/05/03 PHP
laravel 5.4中实现无限级分类的方法示例
2017/07/27 PHP
利用PHP实现开心消消乐的算法示例
2017/10/12 PHP
Javascript 多物体运动的实现
2014/12/24 Javascript
JQuery工具函数汇总
2015/06/15 Javascript
Javascript使用post方法提交数据实例
2015/08/03 Javascript
JavaScript仿支付宝密码输入框
2015/12/29 Javascript
js字符串截取函数slice、substring和substr的比较
2016/05/17 Javascript
轻松掌握JavaScript策略模式
2016/08/25 Javascript
node.js缺少mysql模块运行报错的解决方法
2016/11/13 Javascript
原生js实现新闻列表展开/收起全文功能
2017/01/20 Javascript
在一般处理程序(ashx)中弹出js提示语
2017/08/16 Javascript
Vue中JS动画与Velocity.js的结合使用
2019/02/13 Javascript
Vue自动构建发布脚本的方法示例
2020/07/24 Javascript
详解vue-router的导航钩子(导航守卫)
2020/11/02 Javascript
[01:05:07]DOTA2-DPC中国联赛 正赛 DLG vs Dragon BO3 第一场2月1日
2021/03/11 DOTA
Python中给List添加元素的4种方法分享
2014/11/28 Python
Python实现对象转换为xml的方法示例
2017/06/08 Python
python 时间信息“2018-02-04 18:23:35“ 解析成字典形式的结果代码详解
2018/04/19 Python
python elasticsearch环境搭建详解
2019/09/02 Python
CSS3绘制有活力的链接下划线
2016/07/14 HTML / CSS
利用html5 file api读取本地文件示例(如图片、PDF等)
2018/03/07 HTML / CSS
Html5 webview元素定位工具的实现
2020/08/07 HTML / CSS
世界上最大的隐形眼镜商店:1-800 Contacts
2018/11/03 全球购物
预备党员思想汇报范文
2014/01/11 职场文书
大学生实习感言
2014/01/16 职场文书
2014年置业顾问工作总结
2014/11/17 职场文书
应聘教师求职信范文
2015/03/20 职场文书
《西门豹》教学反思
2016/02/23 职场文书
golang DNS服务器的简单实现操作
2021/04/30 Golang