pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python抽象基类用法实例分析
Jun 04 Python
实例解析Python中的__new__特殊方法
Jun 02 Python
使用Python的Flask框架表单插件Flask-WTF实现Web登录验证
Jul 12 Python
Django自定义分页与bootstrap分页结合
Feb 22 Python
python psutil库安装教程
Mar 19 Python
python中pylint使用方法(pylint代码检查)
Apr 06 Python
python3实现SMTP发送邮件详细教程
Jun 19 Python
详解Python做一个名片管理系统
Mar 14 Python
Python拆分大型CSV文件代码实例
Oct 07 Python
python logging设置level失败的解决方法
Feb 19 Python
基于python实现计算且附带进度条代码实例
Mar 31 Python
详解Golang如何实现支持随机删除元素的堆
Sep 23 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
Php Image Resize图片大小调整的函数代码
2011/01/17 PHP
将博客园(cnblogs.com)数据导入到wordpress的代码
2013/01/06 PHP
php7 图形用户界面GUI 开发示例
2020/02/22 PHP
事件绑定之小测试  onclick && addEventListener
2011/07/31 Javascript
JS格式化数字金额用逗号隔开保留两位小数
2013/10/18 Javascript
jQuery对下拉框,单选框,多选框的操作
2014/02/21 Javascript
跟我学Nodejs(一)--- Node.js简介及安装开发环境
2014/05/20 NodeJs
javascript实现十六进制颜色值(HEX)和RGB格式相互转换
2014/06/20 Javascript
js父页面与子页面不同时显示的方法
2014/10/16 Javascript
node.js中的fs.utimesSync方法使用说明
2014/12/15 Javascript
12306验证码破解思路分享
2015/03/25 Javascript
Node.js和MongoDB实现简单日志分析系统
2015/04/25 Javascript
基于jquery实现的树形菜单效果代码
2015/09/06 Javascript
AngularJS入门教程之AngularJS模型
2016/04/18 Javascript
Three.js基础部分学习
2017/01/08 Javascript
mui上拉加载功能实例详解
2017/04/13 Javascript
AngularJs每天学习之总体介绍
2017/08/07 Javascript
Vue的移动端多图上传插件vue-easy-uploader的示例代码
2017/11/27 Javascript
一个因@click.stop引发的bug的解决
2019/01/08 Javascript
详解React项目中碰到的IE问题
2019/03/14 Javascript
JavaScript页面加载事件实例讲解
2019/09/01 Javascript
vuex刷新后数据丢失的解决方法
2020/10/18 Javascript
[02:04]2014DOTA2国际邀请赛 DK一个时代的落幕
2014/07/21 DOTA
[00:09]DOTA2全国高校联赛 精彩活动引爆全场
2018/05/30 DOTA
python使用递归解决全排列数字示例
2014/02/11 Python
Python中的生成器和yield详细介绍
2015/01/09 Python
Python3 使用pillow库生成随机验证码
2019/08/26 Python
使用CSS3来实现滚动视差效果的教程
2015/08/24 HTML / CSS
关于html字符串正则判断和匹配的具体使用
2019/12/12 HTML / CSS
高三政治教学反思
2014/02/06 职场文书
大学生村官承诺书
2014/03/28 职场文书
村党支部群众路线教育实践活动对照检查材料
2014/09/26 职场文书
2015年中学元旦晚会活动方案
2014/12/09 职场文书
《山中访友》教学反思
2016/02/24 职场文书
安全责任协议书范本
2016/03/23 职场文书
简历中的自我评价应该这样写!
2019/07/12 职场文书