python 删除excel表格重复行,数据预处理操作


Posted in Python onJuly 06, 2020

使用python删除excel表格重复行。

# 导入pandas包并重命名为pd
import pandas as pd
 
# 读取Excel中Sheet1中的数据
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
 
# 查看读取数据内容
print(data)
 
# 查看是否有重复行
re_row = data.duplicated()
print(re_row)
 
# 查看去除重复行的数据
no_re_row = data.drop_duplicates()
print(no_re_row)
 
# 查看基于[物品]列去除重复行的数据
#wp = data.drop_duplicates(['物品'])
#print(wp)
 
# 将去除重复行的数据输出到excel表中
no_re_row.to_excel("test2.xls")

补充知识:Python数据预处理(删除重复值和空值)

pandas几个函数的使用,大数据的预处理(删除重复值和空值),人工删除很麻烦

Python恰好能够解决

注释很详细在这不一一解释了

######################################
##### 读写excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('数据量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,无表头
print('数据集中存在重复观测的数量:\n',np.sum(df_excel.duplicated())) #F为不存在,T为存在,用sum显示重复的数量
print('删除行重复后的数据\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行
              ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
              #### 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。
              #####keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
              #####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本

print('数据集列中是否存在缺失值:\n',df_excel.isnull().any())       #F为不存在,T为存在
print('每一行的缺失值个数:',df_excel.isnull().sum(axis=1))
print('每一列的缺失值个数:',df_excel.isnull().sum(axis=0))

          ####### df.isnull().sum(axis=0)每一列的缺失值个数
          #####df.isnull().any()则会判断哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
                # #axis=0: 删除包含缺失值(NaN)的行
                # #axis=1: 删除包含缺失值(NaN)的列
                # # how=‘any' :要有缺失值(NaN)出现删除
                # # how=‘all': 所有的值都缺失(NaN)才删除
                # 还有一个thresh参数
                # thresh=n,保留至少有 n 个非 NaN 数的行

######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列删除edu这一列
print(df_excel.drop([0],axis=0))#按照行删除0这一行

以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python利用Beautiful Soup模块搜索内容详解
Mar 29 Python
Python与人工神经网络:使用神经网络识别手写图像介绍
Dec 19 Python
对python3标准库httpclient的使用详解
Dec 18 Python
Python虚拟环境的原理及使用详解
Jul 02 Python
python求绝对值的三种方法小结
Dec 04 Python
np.random.seed() 的使用详解
Jan 14 Python
Python生成随机验证码代码实例解析
Jun 09 Python
使用SQLAlchemy操作数据库表过程解析
Jun 10 Python
浅谈pytorch中的BN层的注意事项
Jun 23 Python
Python 如何创建一个线程池
Jul 28 Python
Python编写memcached启动脚本代码实例
Aug 14 Python
python删除csv文件的行列
Apr 06 Python
pandas.DataFrame.drop_duplicates 用法介绍
Jul 06 #Python
TensorFlow Autodiff自动微分详解
Jul 06 #Python
Keras loss函数剖析
Jul 06 #Python
keras 模型参数,模型保存,中间结果输出操作
Jul 06 #Python
Python自省及反射原理实例详解
Jul 06 #Python
如何通过命令行进入python
Jul 06 #Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 #Python
You might like
星际玩家的三大定律
2020/03/04 星际争霸
PHP学习之PHP表达式
2006/10/09 PHP
Yii学习总结之数据访问对象 (DAO)
2015/02/22 PHP
php实现RSA加密类实例
2015/03/26 PHP
PHP使用preg_split和explode分割textarea存放内容的方法分析
2017/07/03 PHP
php用xpath解析html的代码实例讲解
2019/02/14 PHP
Nigma vs Liquid BO3 第二场2.13
2021/03/10 DOTA
用于table内容排序
2006/07/21 Javascript
云网广告中的代码,提示出错,大家找找
2006/11/21 Javascript
JS 数字转换研究总结
2013/12/26 Javascript
jQuery学习总结之jQuery事件
2014/06/30 Javascript
Jquery响应回车键直接提交表单操作代码
2014/07/25 Javascript
jquery实现图片水平滚动效果代码分享
2015/08/26 Javascript
Bootstrap源码解读按钮(5)
2016/12/23 Javascript
angular-cli修改端口号【angular2】
2017/04/19 Javascript
Vue+webpack项目基础配置教程
2018/02/12 Javascript
js中document.write和document.writeln的区别
2018/03/11 Javascript
Vue一次性简洁明了引入所有公共组件的方法
2018/11/28 Javascript
vue项目创建并引入饿了么elementUI组件的步骤
2019/04/11 Javascript
js设计模式之代理模式及订阅发布模式实例详解
2019/08/15 Javascript
vue 解决遍历对象显示的顺序不对问题
2019/11/07 Javascript
webpack proxy 使用(代理的使用)
2020/01/10 Javascript
[17:45]DOTA2 HEROES教学视频教你分分钟做大人-军团指挥官
2014/06/11 DOTA
在Python中使用NLTK库实现对词干的提取的教程
2015/04/08 Python
使用C语言扩展Python程序的简单入门指引
2015/04/14 Python
python中的代码编码格式转换问题
2015/06/10 Python
详解python的webrtc库实现语音端点检测
2017/05/31 Python
Python使用matplotlib实现的图像读取、切割裁剪功能示例
2018/04/28 Python
Python使用get_text()方法从大段html中提取文本的实例
2019/08/27 Python
贝嫂喜欢的婴儿品牌,个性化的婴儿礼物:My 1st Years
2017/11/19 全球购物
法院授权委托书范文
2014/08/02 职场文书
党性心得体会
2014/09/03 职场文书
监理中标通知书
2015/04/16 职场文书
志愿者服务活动总结报告
2015/05/06 职场文书
2015年七夕情人节活动方案
2015/05/06 职场文书
北京大学中文系教授推荐的10本小说
2019/08/08 职场文书