python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python闭包的两个注意事项(推荐)
Mar 20 Python
Python爬虫包BeautifulSoup异常处理(二)
Jun 17 Python
python 列表,数组和矩阵sum的用法及区别介绍
Jun 28 Python
Python中安装easy_install的方法
Nov 18 Python
对python 判断数字是否小于0的方法详解
Jan 26 Python
pandas把所有大于0的数设置为1的方法
Jan 26 Python
Python 通过打码平台实现验证码的实现
May 13 Python
python opencv对图像进行旋转且不裁剪图片的实现方法
Jul 09 Python
python pprint模块中print()和pprint()两者的区别
Feb 10 Python
Flask模板引擎Jinja2使用实例
Apr 23 Python
Python selenium使用autoIT上传附件过程详解
May 26 Python
通过实例解析Python RPC实现原理及方法
Jul 07 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
解析PHP中intval()等int转换时的意外异常情况
2013/06/21 PHP
PHP COOKIE及时生效的方法介绍
2014/02/14 PHP
PHP安全上传图片的方法
2015/03/21 PHP
php操作MongoDB类实例
2015/06/17 PHP
PHP模板引擎Smarty内建函数详解
2016/04/11 PHP
php面向对象编程self和static的区别
2016/05/08 PHP
PHP静态延迟绑定和普通静态效率的对比
2017/10/20 PHP
关于php支持的协议与封装协议总结(推荐)
2017/11/17 PHP
父子窗体间传递JSON格式的数据的代码
2010/12/25 Javascript
Prototype的Class.create函数解析
2011/09/22 Javascript
jquery按回车提交数据的代码示例
2013/11/05 Javascript
nodejs中实现路由功能
2014/12/29 NodeJs
深入浅析AngularJS和DataModel
2016/02/16 Javascript
JS封装的自动创建表格的实现代码
2016/06/15 Javascript
原生js实现class的添加和删除简单代码
2016/07/12 Javascript
JS获取鼠标选中的文字
2016/08/10 Javascript
把多个JavaScript函数绑定到onload事件处理函数上的方法
2016/09/04 Javascript
NodeJS仿WebApi路由示例
2017/02/28 NodeJs
JS实现为动态添加的元素增加事件功能示例【基于事件委托】
2018/03/21 Javascript
flexible.js实现移动端rem适配方案
2020/04/07 Javascript
[02:45]DOTA2英雄基础教程 伐木机
2013/12/23 DOTA
[01:02:02]DOTA2上海特级锦标赛A组败者赛 EHOME VS CDEC第二局
2016/02/25 DOTA
Python中用于返回绝对值的abs()方法
2015/05/14 Python
举例讲解如何在Python编程中进行迭代和遍历
2016/01/19 Python
python密码错误三次锁定(实例讲解)
2017/11/14 Python
Python简单实现两个任意字符串乘积的方法示例
2018/04/12 Python
Python如何获取文件路径/目录
2020/09/22 Python
如何在vscode中安装python库的方法步骤
2021/01/06 Python
CSS3媒体查询Media Queries基础学习教程
2016/02/29 HTML / CSS
戴森西班牙官网:Dyson西班牙
2020/02/04 全球购物
璀璨的珍珠、密钉和个性化珠宝:Lily & Roo
2021/01/21 全球购物
介绍一下Cookie和Session及他们之间的区别
2012/11/20 面试题
总经理检讨书
2014/09/15 职场文书
后勤个人工作总结
2015/02/28 职场文书
通知格式
2015/04/27 职场文书
2016继续教育培训学习心得体会
2016/01/19 职场文书