pandas中的数据去重处理的实现方法


Posted in Python onFebruary 10, 2020

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。
  • last:标记重复,True除了最后一次出现。
  • 错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
  Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
  Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

到此这篇关于pandas中的数据去重处理的实现方法的文章就介绍到这了,更多相关Pandas 数据去重内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
解决谷歌搜索技术文章时打不开网页问题的python脚本
Feb 10 Python
python中使用sys模板和logging模块获取行号和函数名的方法
Apr 15 Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 Python
Python中isnumeric()方法的使用简介
May 19 Python
Python针对给定列表中元素进行翻转操作的方法分析
Apr 27 Python
在Python中使用defaultdict初始化字典以及应用方法
Oct 31 Python
python爬虫 urllib模块发起post请求过程解析
Aug 20 Python
python使用gdal对shp读取,新建和更新的实例
Mar 10 Python
Pytorch mask-rcnn 实现细节分享
Jun 24 Python
Python实现封装打包自己写的代码,被python import
Jul 12 Python
Django一小时写出账号密码管理系统
Apr 29 Python
pytorch 预训练模型读取修改相关参数的填坑问题
Jun 05 Python
对tensorflow中cifar-10文档的Read操作详解
Feb 10 #Python
基于Tensorflow:CPU性能分析
Feb 10 #Python
python sorted函数原理解析及练习
Feb 10 #Python
python pprint模块中print()和pprint()两者的区别
Feb 10 #Python
python yield和Generator函数用法详解
Feb 10 #Python
Tensorflow 卷积的梯度反向传播过程
Feb 10 #Python
tensorflow 实现自定义梯度反向传播代码
Feb 10 #Python
You might like
PHP生成月历代码
2007/06/14 PHP
PHP的SQL注入实现(测试代码安全不错)
2011/02/27 PHP
关于Blog顶部的滚动导航条代码
2006/09/25 Javascript
jquery api参考 visualjquery 中国线路 速度快
2007/11/30 Javascript
基于Jquery的$.cookie()实现跨越页面tabs导航实现代码
2011/03/03 Javascript
JS注册/移除事件处理程序(ExtJS应用程序设计实战)
2013/05/07 Javascript
For循环中分号隔开的3部分的执行顺序探讨
2014/05/27 Javascript
实现无刷新联动例子汇总
2015/05/20 Javascript
jquery实现二级导航下拉菜单效果
2015/12/18 Javascript
AngularJS基础 ng-include 指令简单示例
2016/08/01 Javascript
jQuery多选框选择数量限制方法
2017/02/08 Javascript
js实现点击切换checkbox背景图片的简单实例
2017/05/08 Javascript
vue之父子组件间通信实例讲解(props、$ref、$emit)
2018/05/22 Javascript
jquery实现购物车基本功能
2019/10/25 jQuery
在vue和element-ui的table中实现分页复选功能
2019/12/04 Javascript
js瀑布流布局的实现
2020/06/28 Javascript
JS实现拖拽元素时与另一元素碰撞检测
2020/08/27 Javascript
基于openlayers实现角度测量功能
2020/09/28 Javascript
Python写的一个简单监控系统
2015/06/19 Python
Python实现查找系统盘中需要找的字符
2015/07/14 Python
一个基于flask的web应用诞生 用户注册功能开发(5)
2017/04/11 Python
Python实现查询某个目录下修改时间最新的文件示例
2018/08/29 Python
pytorch 调整某一维度数据顺序的方法
2018/12/08 Python
PyQt5 加载图片和文本文件的实例
2019/06/14 Python
解决python执行不输出系统命令弹框的问题
2019/06/24 Python
tensorflow 实现自定义梯度反向传播代码
2020/02/10 Python
python统计函数库scipy.stats的用法解析
2020/02/25 Python
Python matplotlib绘制图形实例(包括点,曲线,注释和箭头)
2020/04/17 Python
Python绘图实现台风路径可视化代码实例
2020/10/23 Python
小米旗下精品生活电商平台:小米有品
2018/12/18 全球购物
公务员平时考核实施方案
2014/03/11 职场文书
《金子》教学反思
2014/04/13 职场文书
企业员工薪酬方案
2014/06/04 职场文书
班风口号
2014/06/18 职场文书
全国优秀教师事迹材料
2014/08/26 职场文书
CentOS8.4安装Redis6.2.6的详细过程
2021/11/20 Redis