pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python thread 并发且顺序运行示例
Apr 09 Python
Python脚本实现虾米网签到功能
Apr 12 Python
Python2.7基于笛卡尔积算法实现N个数组的排列组合运算示例
Nov 23 Python
python中多个装饰器的执行顺序详解
Oct 08 Python
pyside+pyqt实现鼠标右键菜单功能
Dec 08 Python
Python一键查找iOS项目中未使用的图片、音频、视频资源
Aug 12 Python
在django-xadmin中APScheduler的启动初始化实例
Nov 15 Python
PyTorch 普通卷积和空洞卷积实例
Jan 07 Python
python pyqtgraph 保存图片到本地的实例
Mar 14 Python
Django之choices选项和富文本编辑器的使用详解
Apr 01 Python
python自定义函数def的应用详解
Jun 03 Python
详解Python+OpenCV绘制灰度直方图
Mar 22 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
PHP调用三种数据库的方法(1)
2006/10/09 PHP
PHP 显示客户端IP与服务器IP的代码
2010/10/12 PHP
php header功能的使用
2013/10/28 PHP
PHP中的魔术方法总结和使用实例
2015/05/11 PHP
phpMyAdmin无法登陆的解决方法
2017/04/27 PHP
PHP中散列密码的安全性分析
2019/07/26 PHP
PHP利用DWZ.CN服务生成短网址
2019/08/11 PHP
jQuery EasyUI API 中文文档 DateTimeBox日期时间框
2011/10/16 Javascript
JQuery each打印JS对象的方法
2013/11/13 Javascript
js中取得变量绝对值的方法
2015/01/03 Javascript
js实现class样式的修改、添加及删除的方法
2015/01/20 Javascript
JavaScript实现快速排序的方法
2015/07/31 Javascript
js实现显示当前状态的导航效果代码
2015/08/28 Javascript
js检测iframe是否加载完成的方法
2015/11/26 Javascript
JS获取CSS样式(style/getComputedStyle/currentStyle)
2016/01/19 Javascript
AngularJS转换响应内容
2016/01/27 Javascript
浅谈JavaScript的push(),pop(),concat()方法
2016/06/03 Javascript
Vuex之理解Getters的用法实例
2017/04/19 Javascript
一篇文章让你彻底弄懂JS的事件冒泡和事件捕获
2017/08/14 Javascript
Angular2+国际化方案(ngx-translate)的示例代码
2017/08/23 Javascript
webpack踩坑之路图片的路径与打包
2017/09/05 Javascript
全新打包工具parcel零配置vue开发脚手架
2018/01/11 Javascript
简单介绍react redux的中间件的使用
2018/04/06 Javascript
看看“疫苗查询”小程序有温度的代码
2018/07/31 Javascript
vue里面使用mui的弹出日期选择插件实例
2018/09/16 Javascript
[01:00:35]2018DOTA2亚洲邀请赛3月30日B组 EffcetVSMineski
2018/03/31 DOTA
Python下的twisted框架入门指引
2015/04/15 Python
python写日志封装类实例
2015/06/28 Python
dataframe 按条件替换某一列中的值方法
2019/01/29 Python
Python实现平行坐标图的两种方法小结
2019/07/04 Python
2014大学校园光棍节活动策划书
2014/09/29 职场文书
自查自纠工作总结
2014/10/15 职场文书
小学英语教学随笔
2015/08/14 职场文书
3招让你摆脱即兴讲话冷场尴尬
2019/08/08 职场文书
GTX1650super好不好 gtx1650super显卡属于什么级别
2022/04/08 数码科技
Android开发之WECHAT微信小程序路由跳转的两种形式
2022/04/12 Java/Android