python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python开发的小球完全弹性碰撞游戏代码
Oct 15 Python
Python中转换角度为弧度的radians()方法
May 18 Python
使用Python读取大文件的方法
Feb 11 Python
python中for循环输出列表索引与对应的值方法
Nov 07 Python
python实现得到当前登录用户信息的方法
Jun 21 Python
opencv-python 读取图像并转换颜色空间实例
Dec 09 Python
django在保存图像的同时压缩图像示例代码详解
Feb 11 Python
Tensorflow 1.0之后模型文件、权重数值的读取方式
Feb 12 Python
GDAL 矢量属性数据修改方式(python)
Mar 10 Python
Python requests.post方法中data与json参数区别详解
Apr 30 Python
解决numpy数组互换两行及赋值的问题
Apr 17 Python
PYTHON InceptionV3模型的复现详解
May 06 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
php解决约瑟夫环示例
2014/04/09 PHP
php获取mysql字段名称和其它信息的例子
2014/04/14 PHP
Sublime里直接运行PHP配置方法
2014/11/28 PHP
php实现图片添加描边字和马赛克的方法
2014/12/10 PHP
不使用ajax实现无刷新提交表单
2014/12/21 Javascript
javascript实现将文件保存到本地方法汇总
2015/07/26 Javascript
JS面试题---关于算法台阶的问题
2016/07/26 Javascript
js注入 黑客之路必备!
2016/09/14 Javascript
BootStrapValidator校验方式
2016/12/19 Javascript
Angular2库初探
2017/03/01 Javascript
jquery submit()不能提交表单的解决方法
2017/04/24 jQuery
vue2.0.js的多级联动选择器实现方法
2018/02/09 Javascript
使用FileReader API创建Vue文件阅读器组件
2018/04/03 Javascript
如何封装了一个vue移动端下拉加载下一页数据的组件
2019/01/06 Javascript
mpvue全局引入sass文件的方法步骤
2019/03/06 Javascript
使用微信SDK自定义分享的方法
2019/07/03 Javascript
[07:59]2014DOTA2叨叨刀塔 林熊猫称被邀请赛现场盛况震撼
2014/07/21 DOTA
使用Python抓取模板之家的CSS模板
2015/03/16 Python
给Python的Django框架下搭建的BLOG添加RSS功能的教程
2015/04/08 Python
Django实现简单分页功能的方法详解
2017/12/05 Python
在python中,使用scatter绘制散点图的实例
2019/07/03 Python
Python图像处理PIL各模块详细介绍(推荐)
2019/07/17 Python
Python图像处理库PIL的ImageEnhance模块使用介绍
2020/02/26 Python
Django Xadmin多对多字段过滤实例
2020/04/07 Python
Html5原生拖拽相关事件简介以及基础实现
2020/11/19 HTML / CSS
phpquery中文手册
2021/03/18 PHP
戴尔马来西亚官网:Dell Malaysia
2020/05/02 全球购物
介绍下WebSphere的安全性
2013/01/31 面试题
员工自我鉴定
2013/10/09 职场文书
房地产推广策划方案
2014/05/19 职场文书
大学生考试作弊检讨书1000字
2014/10/14 职场文书
辞职信范文大全
2015/03/02 职场文书
2014年个人年终总结
2015/03/09 职场文书
法人代表证明书范本
2015/06/18 职场文书
开业庆典致辞
2015/08/01 职场文书
简述Java中throw-throws异常抛出
2021/08/07 Java/Android