pandas中DataFrame检测重复值的实现


Posted in Python onMay 26, 2021

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
浅谈function(函数)中的动态参数
Apr 30 Python
Python实现的多项式拟合功能示例【基于matplotlib】
May 15 Python
Django后台获取前端post上传的文件方法
May 28 Python
Python对切片命名的实现方法
Oct 16 Python
python使用Pandas库提升项目的运行速度过程详解
Jul 12 Python
如何通过Django使用本地css/js文件
Jan 20 Python
使用keras2.0 将Merge层改为函数式
May 23 Python
pycharm 对代码做静态检查操作
Jun 09 Python
Pytorch 卷积中的 Input Shape用法
Jun 29 Python
Python数据分析之绘图和可视化详解
Jun 02 Python
Python操作CSV格式文件的方法大全
Jul 15 Python
python热力图实现的完整实例
Jun 25 Python
python 中的@运算符使用
May 26 #Python
Python 实现定积分与二重定积分的操作
May 26 #Python
python 解决微分方程的操作(数值解法)
python 实现体质指数BMI计算
May 26 #Python
Python 如何解决稀疏矩阵运算
Python selenium模拟网页点击爬虫交管12123违章数据
python scipy 稀疏矩阵的使用说明
You might like
基于qmail的完整WEBMAIL解决方案安装详解
2006/10/09 PHP
保存到桌面、设为桌面且带图标的PHP代码
2013/11/19 PHP
PHP对称加密函数实现数据的加密解密
2016/10/27 PHP
PHP检查文件是否存在,不存在自动创建及读取文件内容操作示例
2020/01/23 PHP
解决PHPstudy Apache无法启动的问题【亲测有效】
2020/10/30 PHP
自己动手制作jquery插件之自动添加删除行的实现
2011/10/13 Javascript
JavaScript实现复制功能各浏览器支持情况实测
2013/07/18 Javascript
jQuery实现鼠标悬停显示提示信息窗口的方法
2015/04/30 Javascript
javascript简单实现滑动菜单效果的方法
2015/07/27 Javascript
JQuery EasyUI学习教程之datagrid 添加、修改、删除操作
2016/07/09 Javascript
Three.js入门之hello world以及如何绘制线
2017/09/25 Javascript
JS写XSS cookie stealer来窃取密码的步骤详解
2017/11/20 Javascript
React中常见的动画实现的几种方式
2018/01/10 Javascript
Node Puppeteer图像识别实现百度指数爬虫的示例
2018/02/22 Javascript
使用Angular-CLI构建NPM包的方法
2018/09/07 Javascript
vue中 数字相加为字串转化为数值的例子
2019/11/07 Javascript
python解析发往本机的数据包示例 (解析数据包)
2014/01/16 Python
python模拟鼠标拖动操作的方法
2015/03/11 Python
flask-socketio实现WebSocket的方法
2018/07/31 Python
PYQT5实现控制台显示功能的方法
2019/06/25 Python
python正则表达式匹配不包含某几个字符的字符串方法
2019/07/23 Python
python 一篇文章搞懂装饰器所有用法(建议收藏)
2019/08/23 Python
Scrapy模拟登录赶集网的实现代码
2020/07/07 Python
欧洲领先的技术商店:eibmarkt.com
2019/05/10 全球购物
西安夏日科技有限公司Java笔试题
2013/01/11 面试题
个人简历中自我评价
2014/02/11 职场文书
土木工程专业推荐信
2014/02/19 职场文书
高中竞选班长演讲稿
2014/04/24 职场文书
课内比教学心得体会
2014/09/09 职场文书
教师个人学习总结
2015/02/11 职场文书
中班下学期个人工作总结
2015/02/12 职场文书
公司人事任命通知
2015/04/20 职场文书
董事长秘书工作总结
2015/08/14 职场文书
2019入党申请书格式和范文
2019/06/25 职场文书
详解Flask开发技巧之异常处理
2021/06/15 Python
使用springMVC所需要的pom配置
2021/09/15 Java/Android