详解pandas使用drop_duplicates去除DataFrame重复项参数


Posted in Python onAugust 01, 2019

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python删除指定目录下过期文件的2个脚本分享
Apr 10 Python
Python THREADING模块中的JOIN()方法深入理解
Feb 18 Python
分享一个常用的Python模拟登陆类
Mar 29 Python
Python错误: SyntaxError: Non-ASCII character解决办法
Jun 08 Python
python绘制简单折线图代码示例
Dec 19 Python
Python+request+unittest实现接口测试框架集成实例
Mar 16 Python
python读取ini配置文件过程示范
Dec 23 Python
pandas中的数据去重处理的实现方法
Feb 10 Python
python logging设置level失败的解决方法
Feb 19 Python
使用python 计算百分位数实现数据分箱代码
Mar 03 Python
python求前n个阶乘的和实例
Apr 02 Python
深入理解Pytorch微调torchvision模型
Nov 11 Python
Python使用Pandas对csv文件进行数据处理的方法
Aug 01 #Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 #Python
python psutil模块使用方法解析
Aug 01 #Python
python读写csv文件并增加行列的实例代码
Aug 01 #Python
Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例
Aug 01 #Python
python对csv文件追加写入列的方法
Aug 01 #Python
Django Aggregation聚合使用方法解析
Aug 01 #Python
You might like
基于Windows下Apache PHP5.3.1安装教程
2010/01/08 PHP
PHP7之Mongodb API使用详解
2015/12/26 PHP
ThinkPHP实现登录退出功能
2017/06/29 PHP
php 删除指定文件夹的实例讲解
2017/07/25 PHP
浅谈tudou土豆网首页图片延迟加载的效果
2010/06/23 Javascript
js页面滚动时层智能浮动定位实现(jQuery/MooTools)
2011/08/23 Javascript
javascript判断ie浏览器6/7版本加载不同样式表的实现代码
2011/12/26 Javascript
多种方法判断Javascript对象是否存在
2013/09/22 Javascript
javascript实现设置、获取和删除Cookie的方法
2015/06/01 Javascript
javascript中Date()函数在各浏览器中的显示效果
2015/06/18 Javascript
jQuery对JSON数据进行排序输出的方法
2015/06/24 Javascript
教你如何在Node.js中使用jQuery
2016/08/28 Javascript
jQuery.form.js插件不能解决连接超时(timeout)的原因分析及解决方法
2016/10/14 Javascript
详解js的六大数据类型
2016/12/27 Javascript
JS正则RegExp.test()使用注意事项(不具有重复性)
2016/12/28 Javascript
详解基于vue-cli优化的webpack配置
2017/11/06 Javascript
koa大型web项目中使用路由装饰器的方法示例
2019/04/02 Javascript
微信小程序 动态修改页面数据及参数传递过程详解
2019/09/27 Javascript
three.js 利用uv和ThreeBSP制作一个快递柜功能
2020/08/18 Javascript
python实现发送邮件功能
2017/07/22 Python
Python编写合并字典并实现敏感目录的小脚本
2019/02/26 Python
django日志默认打印request请求信息的方法示例
2020/05/17 Python
Python生成随机验证码代码实例解析
2020/06/09 Python
python爬虫构建代理ip池抓取数据库的示例代码
2020/09/22 Python
德国内衣、泳装和睡衣网上商店:Bigsize Dessous
2018/07/09 全球购物
伦敦一家领先的精品零售商:IRIS Fashion
2019/05/24 全球购物
Ajax和javascript的区别
2013/07/20 面试题
数控技术应届生求职信
2013/11/13 职场文书
知识竞赛主持词
2014/03/26 职场文书
教师一岗双责责任书
2014/04/16 职场文书
清明节演讲稿
2014/05/27 职场文书
再婚婚前财产协议书范本
2014/10/19 职场文书
2014年项目经理工作总结
2014/11/24 职场文书
烈士陵园观后感
2015/06/08 职场文书
启迪人心的励志语录:脾气永远不要大于本事
2020/01/02 职场文书
windows server 2012安装FTP并配置被动模式指定开放端口
2022/06/10 Servers