进行数据处理的6个 Python 代码块分享


Posted in Python onApril 06, 2022

前言:

大家好,今天和大家分享自己总结的6个常用的 Python 数据处理代码,对于经常处理数据的coder最好熟练掌握。

1、选取有空值的行

在观察数据结构时,该方法可以快速定位存在缺失值的行。

df = pd.DataFrame({'A': [0, 1, 2],
                   'B': [0, 1, None],
                   'C': [0, None, 2]})
df[df.isnull().T.any()]

输出:

  A   B   C           A   B   C
0 0 0.0 0.0         1 1 1.0 NaN
1 1 1.0 NaN   -->   2 2 NaN 2.0
2 2 NaN 2.0

2、快速替换列值

实际数据处理经常会根据一些限定条件来替换列中的值。

df = pd.DataFrame({'name':['Python', 'Java', 'C']})

# 第一种方式
df['name'].replace('Java', 'JavaScript', inplace=True)
# 第二种方式
df.loc[df['name'].str.contains('Java'), 'name'] = 'JavaScript'

输出:

     name                   name
0  Python          0      Python
1    Java    --->  1  JavaScript
2       C          2           C

3、对列进行分区

很多情况下,对于数值类型的数据,我们需要分区来计算每个区间数据出现的频率。这时用 pd.cut 就能很好的解决这一问题。

import random

age = random.sample(range(90), 20)
cut_res = pd.cut(age, bins=[0, 18, 35, 60, 90])
# cut_res type:<class 'pandas.core.arrays.categorical.Categorical'>
cut_res.value_counts()

输出:

(0, 18]     6
(18, 35]    1
(35, 60]    6
(60, 90]    7

4、将一列分为多列

在文本数据清洗时,一些列中存在分隔符(‘’, ‘,’, ‘:’)分隔的值,我们只需将该列根据分隔符进行 split 即可。

import pandas as pd

df = pd.DataFrame({'address': ['四川省 成都市',
                               '湖北省 武汉市',
                               '浙江省 杭州市']})
res = df['address'].str.split(' ', expand=True)  
res.columns = ['province', 'city']

输出:

  province city
0 四川省    成都市
1 湖北省    武汉市
2 浙江省    杭州市

expand参数选择是否扩展为 DataFrame,False 则返回 Series

5、中文筛选

同样在清洗过程中,往往会出现一些不需要的中文字段,这时直接用 str.contains 筛选即可。

df = pd.DataFrame({'mobile_phone':
                   ['15928765644',
                    '15567332235',
                    '暂无']})
df[~df['mobile_phone'].str.contains('[\u4e00-\u9fa5]')]

输出:

  mobile_phone         mobile_phone
0 15928765644        0 15928765644
1 15567332235   -->  1 15567332235
2 暂无

6、更改列的位置

有时我们需要调整列的位置,当数据列较少时,可以用下面的方式

df = pd.DataFrame({'name': ['A', 'B', 'C'],
                   'age': [10, 20, 30],
                   'gender': [0, 1, 0]})
df = df[['name', 'gender', 'age']]

输出:

 name age gender    name gender age
0   A  10 0        0   A 0       10
1   B  20 1   -->  1   B 1       20
2   C  30 0        2   C 0       30

如果列较多,那么,一个个列举出来会比较繁琐,推荐下面插入的方式。

col = df['gender']
df.drop('gender', axis=1, inplace=True)
df.insert(1, 'gender', col)

到此这篇关于进行数据处理的6个 Python 代码块分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python判断字符串是否纯数字的方法
Nov 19 Python
通过数据库向Django模型添加字段的示例
Jul 21 Python
基于并发服务器几种实现方法(总结)
Dec 29 Python
python实现猜单词小游戏
May 22 Python
pandas读取csv文件,分隔符参数sep的实例
Dec 12 Python
python实现石头剪刀布程序
Jan 20 Python
Ubuntu18.04中Python2.7与Python3.6环境切换
Jun 14 Python
python二进制文件的转译详解
Jul 03 Python
如何不用安装python就能在.NET里调用Python库
Jul 12 Python
Django框架组成结构、基本概念与文件功能分析
Jul 30 Python
Python算法中的时间复杂度问题
Nov 19 Python
完美解决pycharm 不显示代码提示问题
Jun 02 Python
 分享一个Python 遇到数据库超好用的模块
Apr 06 #Python
Python利用capstone实现反汇编
关于Python中进度条的六个实用技巧分享
如何在Python中妥善使用进度条详解
Apr 05 #Python
Python接口自动化之文件上传/下载接口详解
Apr 05 #Python
关于python3 opencv 图像二值化的问题(cv2.adaptiveThreshold函数)
Python中使用Opencv开发停车位计数器功能
You might like
php设计模式之备忘模式分析【星际争霸游戏案例】
2020/03/24 PHP
动手学习无线电
2021/03/10 无线电
Javascript实现关联数据(Linked Data)查询及注意细节
2013/02/22 Javascript
js改变文章字体大小的实例代码
2013/11/27 Javascript
jquery禁用右键示例
2014/04/28 Javascript
将form表单中的元素转换成对象的方法适用表单提交
2014/05/02 Javascript
Node.js测试中的Mock文件系统详解
2016/11/21 Javascript
Easyui Datagrid自定义按钮列(最后面的操作列)
2017/07/13 Javascript
浅谈pc端rem字体设置的问题
2017/08/03 Javascript
Vue.js框架路由使用方法实例详解
2017/08/25 Javascript
JS与HTML结合实现流程进度展示条思路详解
2017/09/03 Javascript
javascript算法之二叉搜索树的示例代码
2017/09/12 Javascript
利用three.js画一个3D立体的正方体示例代码
2017/11/19 Javascript
基于vue v-for 多层循环嵌套获取行数的方法
2018/09/26 Javascript
VUE渲染后端返回含有script标签的html字符串示例
2019/10/28 Javascript
js使用文档就绪函数动态改变页面内容示例【innerHTML、innerText】
2019/11/07 Javascript
解决echarts echarts数据动态更新和dataZoom被重置问题
2020/07/20 Javascript
Vue性能优化的方法
2020/07/30 Javascript
使用python的pexpect模块,实现远程免密登录的示例
2019/02/14 Python
十分钟搞定pandas(入门教程)
2019/06/21 Python
Pycharm中出现ImportError:DLL load failed:找不到指定模块的解决方法
2019/09/17 Python
python3连接kafka模块pykafka生产者简单封装代码
2019/12/23 Python
Docker部署Python爬虫项目的方法步骤
2020/01/19 Python
python 最简单的实现适配器设计模式的示例
2020/06/30 Python
基于Jquery和Css3代码制作可以缩放的搜索框
2015/11/19 HTML / CSS
浅谈css3新单位vw、vh、vmin、vmax的使用详解
2017/12/01 HTML / CSS
Omio荷兰:预订火车、巴士和机票
2018/11/04 全球购物
网络公司美工设计工作个人的自我评价
2013/11/03 职场文书
英语演讲稿范文
2014/01/03 职场文书
毕业生简历自我评价范文
2014/04/09 职场文书
中专毕业生的自荐书
2014/07/01 职场文书
党支部组织生活会整改方案
2014/09/30 职场文书
老干部工作汇报材料
2014/10/28 职场文书
毕业欢送会致辞
2015/07/29 职场文书
导游词之永泰公主墓
2019/12/04 职场文书
Python实现学生管理系统并生成exe可执行文件详解流程
2022/01/22 Python