pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
编写简单的Python程序来判断文本的语种
Apr 07 Python
Linux下通过python访问MySQL、Oracle、SQL Server数据库的方法
Apr 23 Python
python获取指定时间差的时间实例详解
Apr 11 Python
python3大文件解压和基本操作
Dec 15 Python
python 分离文件名和路径以及分离文件名和后缀的方法
Oct 21 Python
Python网络编程之使用TCP方式传输文件操作示例
Nov 01 Python
基于python2.7实现图形密码生成器的实例代码
Nov 05 Python
Python的对象传递与Copy函数使用详解
Dec 26 Python
tensorflow使用指定gpu的方法
Feb 04 Python
如何使用pandas读取txt文件中指定的列(有无标题)
Mar 05 Python
Idea安装python显示无SDK问题解决方案
Aug 12 Python
scrapy-redis分布式爬虫的搭建过程(理论篇)
Sep 29 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
PHP base64+gzinflate压缩编码和解码代码
2008/10/03 PHP
使用PHP下载CSS文件中的所有图片【几行代码即可实现】
2016/12/14 PHP
PHP实现数据库统计时间戳按天分组输出数据的方法
2017/10/10 PHP
javascript淡入淡出效果的实现思路
2012/03/31 Javascript
JavaScript高级程序设计 阅读笔记(二十一) JavaScript中的XML
2012/09/14 Javascript
jquery实现textarea输入字符控制(仿微博输入控制字符)
2013/04/26 Javascript
JavaScript 实现类的多种方法实例
2013/05/01 Javascript
基于JavaScript实现继承机制之构造函数+原型链混合方式的使用详解
2013/05/07 Javascript
让JavaScript和其它资源并发下载的方法
2014/10/16 Javascript
js实现的动画导航菜单效果代码
2015/09/10 Javascript
一个炫酷的Bootstrap导航菜单
2016/12/28 Javascript
Javascript 实现计算器时间功能详解及实例(二)
2017/01/08 Javascript
折叠菜单及选择器的运用
2017/02/03 Javascript
Angular4实现动态添加删除表单输入框功能
2017/08/11 Javascript
AngularJS实现与后台服务器进行交互的示例讲解
2018/08/13 Javascript
Webpack 4如何动态切割JS注入文件名详解
2019/07/09 Javascript
JavaScript Window浏览器对象模型原理解析
2020/05/30 Javascript
Python Socket编程入门教程
2014/07/11 Python
python下读取公私钥做加解密实例详解
2017/03/29 Python
python中字符串类型json操作的注意事项
2017/05/02 Python
Python基于hashlib模块的文件MD5一致性加密验证示例
2018/02/10 Python
PyQt5实现无边框窗口的标题拖动和窗口缩放
2018/04/19 Python
Python调用adb命令实现对多台设备同时进行reboot的方法
2018/10/15 Python
python实现图书借阅系统
2019/02/20 Python
python通过paramiko复制远程文件及文件目录到本地
2019/04/30 Python
对python中的float除法和整除法的实例详解
2019/07/20 Python
pycharm创建scrapy项目教程及遇到的坑解析
2019/08/15 Python
Python for循环与getitem的关系详解
2020/01/02 Python
Bailey帽子官方商店:Bailey Hats
2018/09/25 全球购物
大学生标准推荐信范文
2013/11/25 职场文书
《槐乡五月》教学反思
2014/04/25 职场文书
关于祖国的演讲稿
2014/05/04 职场文书
求职自我推荐信
2014/06/25 职场文书
幼儿园教研工作总结2015
2015/05/12 职场文书
2019思想汇报范文
2019/05/21 职场文书
Django+Celery实现定时任务的示例
2021/06/23 Python