python pandas dataframe 去重函数的具体使用


Posted in Python onJuly 20, 2020

今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame
 
data = DataFrame({'k': [1, 1, 2, 2]})
 
print data
 
IsDuplicated = data.duplicated()
 
print IsDuplicated
print type(IsDuplicated)
 
data = data.drop_duplicates()
print data

执行结果是:

   k
0  1
1  1
2  2
3  2

0    False
1     True
2    False
3     True

   k
0  1
2  2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法,它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列,你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求,通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
  • subset: 列名,可选,默认为None
    • keep: {‘first', ‘last', False}, 默认值 ‘first'
    • first: 保留第一次出现的重复行,删除后面的重复行。
    • last: 删除重复项,除了最后一次出现。
  • False: 删除所有重复项。
  • inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。(inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。)

例如,希望对名字为k2的列进行去重,

data.drop_duplicates(['k2'])

到此这篇关于python pandas dataframe 去重函数的具体使用的文章就介绍到这了,更多相关python pandas dataframe 去重函数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Ubuntu 14.04+Django 1.7.1+Nginx+uwsgi部署教程
Nov 18 Python
如何解决django配置settings时遇到Could not import settings 'conf.local'
Nov 18 Python
几个提升Python运行效率的方法之间的对比
Apr 03 Python
Python编程之string相关操作实例详解
Jul 22 Python
Python二进制串转换为通用字符串的方法
Jul 23 Python
Python常见内置高效率函数用法示例
Jul 31 Python
python实现名片管理系统
Nov 29 Python
Python中dict和set的用法讲解
Mar 28 Python
在django模板中实现超链接配置
Aug 21 Python
django有外键关系的两张表如何相互查找
Feb 10 Python
matplotlib对象拾取事件处理的实现
Jan 14 Python
python lambda的使用详解
Feb 26 Python
Pandas中DataFrame基本函数整理(小结)
Jul 20 #Python
Python实现删除某列中含有空值的行的示例代码
Jul 20 #Python
解决python运行效率不高的问题
Jul 20 #Python
Python生成器generator原理及用法解析
Jul 20 #Python
Win10环境中如何实现python2和python3并存
Jul 20 #Python
python和go语言的区别是什么
Jul 20 #Python
Python基础教程(一)——Windows搭建开发Python开发环境
Jul 20 #Python
You might like
php 无限级 SelectTree 类
2009/05/19 PHP
php HandlerSocket的使用
2011/05/02 PHP
JS与PHP向函数传递可变参数的区别实例代码
2011/05/18 PHP
无法载入 mcrypt 扩展,请检查 PHP 配置终极解决方案
2011/07/18 PHP
PHP错误WARNING: SESSION_START() [FUNCTION.SESSION-START]解决方法
2014/05/04 PHP
twig里使用js变量的方法
2016/02/05 PHP
建议大家看下JavaScript重要知识更新
2007/07/08 Javascript
jQuery 解析xml文件
2009/08/09 Javascript
jQuery 获取对象 基本选择与层级
2010/05/31 Javascript
EasyUI中的tree用法介绍
2011/11/01 Javascript
获取div编辑框,textarea,input text的光标位置 兼容IE,FF和Chrome的方法介绍
2012/11/08 Javascript
javascript生成随机数方法汇总
2015/11/12 Javascript
AngularJs的UI组件ui-Bootstrap之Tooltip和Popover
2018/07/13 Javascript
webpack+vue-cil中proxyTable处理跨域的方法
2018/07/20 Javascript
Node批量爬取头条视频并保存方法
2018/09/20 Javascript
微信小程序实现通过双向滑动缩放图片大小的方法
2018/12/30 Javascript
Vue中使用canvas方法总结
2019/02/12 Javascript
vue props对象validator自定义函数实例
2019/11/13 Javascript
在Vue里如何把网页的数据导出到Excel的方法
2020/09/30 Javascript
python使用pil生成缩略图的方法
2015/03/26 Python
python使用Apriori算法进行关联性解析
2017/12/21 Python
Pyinstaller将py打包成exe的实例
2018/03/31 Python
python 正确保留多位小数的实例
2018/07/16 Python
Django实现将views.py中的数据传递到前端html页面,并展示
2020/03/16 Python
keras.utils.to_categorical和one hot格式解析
2020/07/02 Python
python爬取抖音视频的实例分析
2021/01/19 Python
技校生自我鉴定范文
2013/09/26 职场文书
酒店采购员岗位职责
2014/03/14 职场文书
公司保密承诺书
2014/03/27 职场文书
竞选班干部演讲稿500字
2014/08/20 职场文书
2014员工聘用协议书(最新版)
2014/11/24 职场文书
2015年护士长个人工作总结
2015/04/24 职场文书
跳高加油稿
2015/07/21 职场文书
Python图片检索之以图搜图
2021/05/31 Python
springcloud之Feign超时问题的解决
2021/06/24 Java/Android
nginx服务器的下载安装与使用详解
2021/08/02 Servers