pd.drop_duplicates删除重复行的方法实现


Posted in Python onJune 16, 2022

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。

一、使用语法及参数

使用语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数:

  • subset – 指定特定的列 默认所有列
  • keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项 默认第一个
  • keep=False – 表示删除所有重复项 不保留
  • inplace – 是否直接修改原对象
  • gnore_index=True – 重置索引 (version 1.0.0 才有这个参数)

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({'a':[1,1,2,2],
                   'b':['a','b','a','b']})

# 单列
df.drop_duplicates('b', 'first', inplace=True)
print(df)
'''
   a  b
0  1  a
1  1  b
'''

# 多列
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=['a', 'b'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=['brand'])

# 保留最后一个重复值
df.drop_duplicates(subset=['brand', 'style'], keep='last')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python新手入门最容易犯的错误总结
Apr 24 Python
Python 文件操作的详解及实例
Sep 18 Python
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
Feb 23 Python
python定向爬取淘宝商品价格
Feb 27 Python
python 将数据保存为excel的xls格式(实例讲解)
May 03 Python
Python中使用Counter进行字典创建以及key数量统计的方法
Jul 06 Python
在python中利用最小二乘拟合二次抛物线函数的方法
Dec 29 Python
详解python编译器和解释器的区别
Jun 24 Python
在python中实现求输出1-3+5-7+9-......101的和
Apr 02 Python
Python中常见的导入方式总结
May 06 Python
Python基于Tkinter开发一个爬取B站直播弹幕的工具
May 06 Python
Python pandas求方差和标准差的方法实例
Aug 04 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 #Python
pd.DataFrame中的几种索引变换的实现
Python实战实现爬取天气数据并完成可视化分析详解
pandas时间序列之pd.to_datetime()的实现
Jun 16 #Python
pandas中pd.groupby()的用法详解
Jun 16 #Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 #Python
Python自动操作神器PyAutoGUI的使用教程
Jun 16 #Python
You might like
PHP 多维数组排序实现代码
2009/08/05 PHP
php实现12306火车票余票查询和价格查询(12306火车票查询)
2014/01/14 PHP
PHP实现文件上传与下载实例与总结
2016/03/13 PHP
php获取字符串前几位的实例(substr返回字符串的子串用法)
2017/03/08 PHP
PHP编程文件处理类SplFileObject和SplFileInfo用法实例分析
2017/07/22 PHP
php微信公众号开发之答题连闯三关
2018/10/20 PHP
JavaScript使用过程中需要注意的地方和一些基本语法
2010/08/26 Javascript
js中的getAttribute方法使用示例
2014/08/01 Javascript
jQuery 实现侧边浮动导航菜单效果
2014/12/26 Javascript
javascript面向对象之对象的深入理解
2015/01/13 Javascript
基于JavaScript实现瀑布流效果(循环渐近)
2016/01/27 Javascript
js一维数组、多维数组和对象的混合使用方法
2016/04/03 Javascript
基于 Node.js 实现前后端分离
2016/04/23 Javascript
个人网站留言页面(前端jQuery编写、后台php读写MySQL)
2016/05/03 Javascript
深入理解MVC中的时间js格式化
2016/05/19 Javascript
JavaScript实现相册弹窗功能(zepto.js)
2016/06/21 Javascript
JavaScript中数组的22种方法必学(推荐)
2016/07/20 Javascript
微信小程序 ES6Promise.all批量上传文件实现代码
2017/04/14 Javascript
用ES6的class模仿Vue写一个双向绑定的示例代码
2018/04/20 Javascript
Vue实现textarea固定输入行数与添加下划线样式的思路详解
2018/06/28 Javascript
原生javascript实现连连看游戏
2019/01/03 Javascript
使用vuex较为优雅的实现一个购物车功能的示例代码
2019/12/09 Javascript
在vue-cli3中使用axios获取本地json操作
2020/07/30 Javascript
在ironpython中利用装饰器执行SQL操作的例子
2015/05/02 Python
django启动uwsgi报错的解决方法
2018/04/08 Python
解决Python3 被PHP程序调用执行返回乱码的问题
2019/02/16 Python
基于python+selenium的二次封装的实现
2020/01/06 Python
python高阶函数map()和reduce()实例解析
2020/03/16 Python
Python Django2 model 查询介绍(条件、范围、模糊查询)
2020/03/16 Python
解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题
2020/06/23 Python
Python datetime 如何处理时区信息
2020/09/02 Python
英国知名的皮手套品牌:Dents
2016/11/13 全球购物
美国大码时尚女装购物网站:ELOQUII
2017/12/28 全球购物
计算机通信工程专业毕业生推荐信
2013/12/24 职场文书
销售助理岗位职责
2014/02/21 职场文书
民政局标准版离婚协议书
2014/12/01 职场文书