详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python读写文件操作示例程序
Dec 02 Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 Python
Python线程中对join方法的运用的教程
Apr 09 Python
Python下的subprocess模块的入门指引
Apr 16 Python
Python中正则表达式详解
May 17 Python
Python中用字符串调用函数或方法示例代码
Aug 04 Python
django 解决manage.py migrate无效的问题
May 27 Python
如何在Django项目中引入静态文件
Jul 26 Python
tensorflow安装成功import tensorflow 出现问题
Apr 16 Python
Win 10下Anaconda虚拟环境的教程
May 18 Python
记录一下scrapy中settings的一些配置小结
Sep 28 Python
python中pandas对多列进行分组统计的实现
Jun 18 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
ThinkPHP关联模型操作实例分析
2012/09/23 PHP
php使用ob_flush不能每隔一秒输出原理分析
2015/06/02 PHP
PHP常见错误提示含义解释(实用!值得收藏)
2016/04/25 PHP
PHP实现小程序批量通知推送
2018/11/27 PHP
jQuery根据纬度经度查看地图处理程序
2013/05/08 Javascript
Javascript脚本实现静态网页加密实例代码
2013/11/05 Javascript
一款基jquery超炫的动画导航菜单可响应单击事件
2014/11/02 Javascript
jQuery中document与window以及load与ready 区别详解
2014/12/29 Javascript
Jquery 实现table样式的设定
2015/01/28 Javascript
Bootstrap选项卡动态切换效果
2016/11/28 Javascript
JS简单实现数组去重的方法示例
2017/03/27 Javascript
详解Vue-Cli 异步加载数据的一些注意点
2017/08/12 Javascript
node.js开发辅助工具nodemon安装与配置详解
2020/02/06 Javascript
[00:48]完美“圣”典2016风云人物:xiao8宣传片
2016/11/30 DOTA
[01:00:22]DOTA2-DPC中国联赛定级赛 LBZS vs Magma BO3第三场 1月10日
2021/03/11 DOTA
python中使用序列的方法
2015/08/03 Python
Python实现生成随机数据插入mysql数据库的方法
2017/12/25 Python
使用Python横向合并excel文件的实例
2018/12/11 Python
python lxml中etree的简单应用
2019/05/10 Python
Django生成PDF文档显示在网页上以及解决PDF中文显示乱码的问题
2019/07/04 Python
python 用所有标点符号分隔句子的示例
2019/07/15 Python
Python对接六大主流数据库(只需三步)
2019/07/31 Python
python代码实现逻辑回归logistic原理
2019/08/07 Python
Python爬虫运用正则表达式的方法和优缺点
2019/08/25 Python
django认证系统实现自定义权限管理的方法
2019/08/28 Python
PyCharm+Miniconda3安装配置教程详解
2021/02/16 Python
一款CSS3实现多功能下拉菜单(带分享按)的教程
2014/11/05 HTML / CSS
amazeui 验证按钮扩展的实现
2020/08/21 HTML / CSS
SEPHORA丝芙兰捷克官网:购买香水、化妆品和护肤品
2018/11/26 全球购物
工作表扬信的范文
2014/01/10 职场文书
学校安全教育制度
2014/01/31 职场文书
预备党员综合考察材料
2014/05/31 职场文书
关于运动会广播稿50字
2014/10/18 职场文书
银行求职信范文怎么写
2015/03/20 职场文书
中标通知书范本
2015/04/17 职场文书
Oracle删除归档日志及添加定时任务
2022/06/28 Oracle