Python数据处理的三个实用技巧分享


Posted in Python onApril 01, 2022

我使用的 Pandas 版本如下,顺便也导入 Pandas 库。

>>> import pandas as pd
>>> pd.__version__
'0.25.1'

在开始前先确保解释器和数据集在同一目录下:

>>> import os
>>> os.chdir('D://source/dataset') # 这是我的数据集所在目录
>>> os.listdir() # 确认此目录已经存在 IMDB-Movie-Data 数据集
['drinksbycountry.csv', 'IMDB-Movie-Data.csv', 'movietweetings', 'titanic_eda_data.csv', 'titanic_train_data.csv']

准备工作就位后,正式开始数据处理技巧之旅。

1 Pandas 移除某列

导入数据

>>> df = pd.read_csv("IMDB-Movie-Data.csv")
>>> df.head(1) # 导入并显示第一行
   Rank                    Title                    Genre  ...   Votes Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  Action,Adventure,Sci-Fi  ...  757074             333.13      76.0

[1 rows x 12 columns]

使用 pop 方法移除指定列:

>>> meta = df.pop("Title").to_frame() # 移除 Title 列

确认是否已被移除:

>>> df.head(1) # df 变为 11列
   Rank                    Genre  ... Revenue (Millions) Metascore
0     1  Action,Adventure,Sci-Fi  ...             333.13      76.0

[1 rows x 11 columns]

2 统计标题单词数

pop 后得到 meta,显示 meta 前 3 行:

>>> meta.head(3)
                     Title
0  Guardians of the Galaxy
1               Prometheus
2                    Split

标题是由单词组成,中间用空格分隔。

# .str.count(" ") + 1 得到单词个数 
>>> meta["words_count"] = meta["Title"].str.count(" ") + 1 
>>> meta.head(3) # words_count 列代表单词个数
                     Title  words_count
0  Guardians of the Galaxy            4
1               Prometheus            1
2                    Split            1

3 Genre 频次统计

下面统计电影 Genre 的频次,

>>> vc = df["Genre"].value_counts()

下面显示电影 Genre 的 Top5 ,最高频为出现 50 次的 Action,Adventure,Sci-Fi 类,次之为 48 次的 Drama 类:

>>> vc.head()
Action,Adventure,Sci-Fi    50
Drama                      48
Comedy,Drama,Romance       35
Comedy                     32
Drama,Romance              31
Name: Genre, dtype: int64

展示 Top5 的饼状图:

>>> import matplotlib.pyplot as plt
>>> vc[:5].plot(kind='pie')
<matplotlib.axes._subplots.AxesSubplot object at 0x000001D65B114948>
>>> plt.show()

Python数据处理的三个实用技巧分享

到此这篇关于Python数据处理的三个实用技巧分享的文章就介绍到这了,更多相关Python 数据处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
闭包在python中的应用之translate和maketrans用法详解
Aug 27 Python
Django框架中数据的连锁查询和限制返回数据的方法
Jul 17 Python
python3中dict(字典)的使用方法示例
Mar 22 Python
Python实现完整的事务操作示例
Jun 20 Python
Python基于Pymssql模块实现连接SQL Server数据库的方法详解
Jul 20 Python
PyQt5打开文件对话框QFileDialog实例代码
Feb 07 Python
对python list 遍历删除的正确方法详解
Jun 29 Python
python批量赋值操作实例
Oct 22 Python
详解python中sort排序使用
Mar 23 Python
python多线程实现TCP服务端
Sep 03 Python
Python的in,is和id函数代码实例
Apr 18 Python
总结python多进程multiprocessing的相关知识
Jun 29 Python
Python+Tkinter打造签名设计工具
Python正则表达式中flags参数的实例详解
Apr 01 #Python
Python+Tkinter制作专属图形化界面
Pyhton爬虫知识之正则表达式详解
python 离散点图画法的实现
Python学习之迭代器详解
Python实战之大鱼吃小鱼游戏的实现
You might like
PHP生成月历代码
2007/06/14 PHP
thinkphp中session和cookie无效的解决方法
2014/12/19 PHP
学习php设计模式 php实现状态模式
2015/12/07 PHP
给大家分享几个常用的PHP函数
2017/01/15 PHP
PHP编程快速实现数组去重的方法详解
2017/07/22 PHP
PHP simplexml_load_string()函数实例讲解
2019/02/03 PHP
json 实例详细说明教程
2009/10/31 Javascript
javascript中的107个基础知识收集整理 推荐
2010/03/29 Javascript
js获取当前日期代码适用于网页头部
2013/06/27 Javascript
js中substr,substring,indexOf,lastIndexOf的用法小结
2013/12/27 Javascript
扩展IE中一些不兼容的方法如contains、startWith等等
2014/01/09 Javascript
JS调用页面表格导出excel示例代码
2014/03/18 Javascript
跟我学习javascript的执行上下文
2015/11/18 Javascript
AngularJS入门教程之路由与多视图详解
2016/08/19 Javascript
AngularJs  unit-testing(单元测试)详解
2016/09/02 Javascript
Javascript 实现计算器时间功能详解及实例(二)
2017/01/08 Javascript
canvas实现绘制吃豆鱼效果
2017/01/12 Javascript
JavaScript获取URL参数的方法之一
2017/03/24 Javascript
Vue2.0使用过程常见的一些问题总结学习
2017/04/10 Javascript
vue解决花括号数据绑定不成功的问题
2019/10/30 Javascript
js实现网页随机验证码
2020/10/19 Javascript
vue 中的动态传参和query传参操作
2020/11/09 Javascript
[01:06:07]2014 DOTA2国际邀请赛中国区预选赛5.21 DT VS CIS
2014/05/22 DOTA
Python ArgumentParse的subparser用法说明
2020/04/20 Python
Python 创建守护进程的示例
2020/09/29 Python
联想美国官方商城:Lenovo美国
2017/06/19 全球购物
一份比较全的PHP面试题
2016/07/29 面试题
求职简历中个人的自我评价
2013/12/01 职场文书
大学自我评价
2014/02/12 职场文书
房屋出售协议书
2014/04/10 职场文书
文科毕业生自荐书范文
2014/04/17 职场文书
新闻传播专业求职信
2014/07/22 职场文书
营销总经理岗位职责范本
2014/09/02 职场文书
小学生竞选班干部演讲稿(5篇)
2014/09/12 职场文书
Python趣味挑战之用pygame实现简单的金币旋转效果
2021/05/31 Python
数据分析数据库ClickHouse在大数据领域应用实践
2022/04/03 MySQL