pd.drop_duplicates删除重复行的方法实现


Posted in Python onJune 16, 2022

drop_duplicates 方法实现对数据框 DataFrame 去除特定列的重复行,返回 DataFrame 格式数据。

一、使用语法及参数

使用语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

参数:

  • subset – 指定特定的列 默认所有列
  • keep:{‘first’, ‘last’, False} – 删除重复项并保留第一次出现的项 默认第一个
  • keep=False – 表示删除所有重复项 不保留
  • inplace – 是否直接修改原对象
  • gnore_index=True – 重置索引 (version 1.0.0 才有这个参数)

二、实操

1.例子一

import pandas as pd
df = pd.DataFrame({'a':[1,1,2,2],
                   'b':['a','b','a','b']})

# 单列
df.drop_duplicates('b', 'first', inplace=True)
print(df)
'''
   a  b
0  1  a
1  1  b
'''

# 多列
df.drop_duplicates(subset=['a', 'b'], keep='first', inplace=False)

# 删除所有重复项 不保留
df.drop_duplicates(subset=['a', 'b'], False)

2.例子二

# 构建测试数据框
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})

# 默认按所有列去重
df.drop_duplicates()

# 指定列
df.drop_duplicates(subset=['brand'])

# 保留最后一个重复值
df.drop_duplicates(subset=['brand', 'style'], keep='last')

3.删除重复项后重置索引

# 方法一
df.drop_duplicates(ignore_index=True)

# 方法二
df.drop_duplicates().reset_index(drop=True)

# 方法三
df.index = range(df.shape[0])

到此这篇关于pd.drop_duplicates删除重复行的方法实现的文章就介绍到这了,更多相关pd.drop_duplicates删除重复行内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python httplib,smtplib使用方法
Sep 06 Python
Python中的两个内置模块介绍
Apr 05 Python
转换科学计数法的数值字符串为decimal类型的方法
Jul 16 Python
Python中分支语句与循环语句实例详解
Sep 13 Python
下载官网python并安装的步骤详解
Oct 12 Python
Tensorflow限制CPU个数实例
Feb 06 Python
关于多元线性回归分析——Python&SPSS
Feb 24 Python
python_matplotlib改变横坐标和纵坐标上的刻度(ticks)方式
May 16 Python
解决Keras中CNN输入维度报错问题
Jun 29 Python
如何基于Python爬取隐秘的角落评论
Jul 02 Python
Python django中如何使用restful框架
Jun 23 Python
基于Python实现一个春节倒计时脚本
Jan 22 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 #Python
pd.DataFrame中的几种索引变换的实现
Python实战实现爬取天气数据并完成可视化分析详解
pandas时间序列之pd.to_datetime()的实现
Jun 16 #Python
pandas中pd.groupby()的用法详解
Jun 16 #Python
python中pd.cut()与pd.qcut()的对比及示例
Jun 16 #Python
Python自动操作神器PyAutoGUI的使用教程
Jun 16 #Python
You might like
怎样在php中使用PDF文档功能
2006/10/09 PHP
PHP-MySQL教程归纳总结
2008/06/07 PHP
用 Composer构建自己的 PHP 框架之基础准备
2014/10/30 PHP
理解php依赖注入和控制反转
2016/05/11 PHP
使用原生javascript创建通用表单验证——更锋利的使用dom对象
2011/09/13 Javascript
javascript中Object使用详解
2015/01/26 Javascript
JavaScript学习总结之JS、AJAX应用
2016/01/29 Javascript
JS声明式函数与赋值式函数实例分析
2016/12/13 Javascript
使用snowfall.jquery.js实现爱心满屏飞的效果
2017/01/05 Javascript
jQuery实现别踩白块儿网页版小游戏
2017/01/18 Javascript
JS+canvas实现的五子棋游戏【人机大战版】
2017/07/19 Javascript
jquery.picsign图片标注组件实例详解
2018/02/02 jQuery
element-ui表格数据转换的示例代码
2018/08/24 Javascript
微信小程序http连接访问解决方案的示例
2018/11/05 Javascript
在node中使用jwt签发与验证token的方法
2019/04/03 Javascript
keep-Alive搭配vue-router实现缓存页面效果的示例代码
2020/06/24 Javascript
three.js欧拉角和四元数的使用方法
2020/07/26 Javascript
Windows系统配置python脚本开机启动的3种方法分享
2015/03/10 Python
Python标准库之collections包的使用教程
2017/04/27 Python
深入理解Python中的*重复运算符
2017/10/28 Python
python爬虫中get和post方法介绍以及cookie作用
2018/02/08 Python
Python3实现爬取指定百度贴吧页面并保存页面数据生成本地文档的方法
2018/04/22 Python
Python 中导入csv数据的三种方法
2018/11/01 Python
python利用百度AI实现文字识别功能
2018/11/27 Python
总结Python图形用户界面和游戏开发知识点
2019/05/22 Python
python 基于TCP协议的套接字编程详解
2019/06/29 Python
django表单的Widgets使用详解
2019/07/22 Python
python 工具 字符串转numpy浮点数组的实现
2020/03/14 Python
HTML里显示pdf、word、xls、ppt的方法示例
2020/04/14 HTML / CSS
英国计算机产品零售商:Novatech(定制个人电脑、笔记本电脑、工作站和服务器)
2018/01/28 全球购物
计算s=f(f(-1.4))的值
2014/05/06 面试题
本科生个人求职自荐信
2013/09/26 职场文书
肯尼迪就职演说稿
2013/12/31 职场文书
后勤部经理岗位职责
2014/02/23 职场文书
学校百日安全活动总结
2015/05/07 职场文书
基于PyQT5制作一个桌面摸鱼工具
2022/02/15 Python