pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python使用win32com在百度空间插入html元素示例
Feb 20 Python
python根据时间生成mongodb的ObjectId的方法
Mar 13 Python
python中管道用法入门实例
Jun 04 Python
使用Python的Twisted框架构建非阻塞下载程序的实例教程
May 25 Python
python3 遍历删除特定后缀名文件的方法
Apr 23 Python
pyqt远程批量执行Linux命令程序的方法
Feb 14 Python
基于Python的图像数据增强Data Augmentation解析
Aug 13 Python
Python 最强编辑器详细使用指南(PyCharm )
Sep 16 Python
详解Python3定时器任务代码
Sep 23 Python
Python操作多维数组输出和矩阵运算示例
Nov 28 Python
Python嵌入C/C++进行开发详解
Jun 09 Python
Python中tqdm的使用和例子
Sep 23 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
个人站长制做网页常用的php代码
2007/03/03 PHP
php中常用字符串处理代码片段整理
2011/11/07 PHP
PHP测试程序运行时间的类
2012/02/05 PHP
PHP连接MSSQL方法汇总
2016/02/05 PHP
bindParam和bindValue的区别以及在Yii2中的使用详解
2018/03/12 PHP
laravel框架实现后台登录、退出功能示例
2019/10/31 PHP
PNG背景在不同浏览器下的应用
2009/06/22 Javascript
使用Jquery搭建最佳用户体验的登录页面之记住密码自动登录功能(含后台代码)
2011/07/10 Javascript
仿jQuery的siblings效果的js代码
2011/08/09 Javascript
用js判断页面是否加载完成实现代码
2012/12/11 Javascript
12种不宜使用的Javascript语法整理
2013/11/04 Javascript
javascript删除字符串最后一个字符
2014/01/14 Javascript
javascript实现删除前弹出确认框
2015/06/04 Javascript
在for循环中length值是否需要缓存
2015/07/27 Javascript
js判断日期时间有效性的方法
2015/10/24 Javascript
原生JavaScript写出Tabs标签页的实例代码
2020/07/20 Javascript
Python实现在Linux系统下更改当前进程运行用户
2015/02/04 Python
python插入排序算法实例分析
2015/07/03 Python
酷! 程序员用Python带你玩转冲顶大会
2018/01/17 Python
python模拟登陆,用session维持回话的实例
2018/12/27 Python
python实现一个点绕另一个点旋转后的坐标
2019/12/04 Python
Python namedtuple命名元组实现过程解析
2020/01/08 Python
使用Python爬虫库requests发送表单数据和JSON数据
2020/01/25 Python
Python代码执行时间测量模块timeit用法解析
2020/07/01 Python
加拿大鞋子连锁店:Town Shoes
2016/09/26 全球购物
英国安全产品购物网站:The Safe Shop
2017/03/20 全球购物
英国鹦鹉店:Parrot Essentials
2018/12/03 全球购物
马德里竞技官方网上商店:Atletico Madrid Shop
2019/03/31 全球购物
公司寄语大全
2014/04/10 职场文书
初一学生期末评语
2014/04/24 职场文书
2014年领导班子专项整治整改方案
2014/09/28 职场文书
2015年个人自我剖析材料
2014/12/29 职场文书
亚布力滑雪场导游词
2015/02/09 职场文书
为什么代码规范要求SQL语句不要过多的join
2021/06/23 MySQL
唤醒紫霞仙子,携手再游三界!大话手游X《大话西游》电影合作专属剧情任务
2022/04/03 其他游戏
详解ZABBIX监控ESXI主机的问题
2022/06/21 Servers