Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python 输出一个两行字符的变量
Feb 05 Python
学习python处理python编码问题
Mar 13 Python
python网络编程学习笔记(七):HTML和XHTML解析(HTMLParser、BeautifulSoup)
Jun 09 Python
Python是编译运行的验证方法
Jan 30 Python
启动targetcli时遇到错误解决办法
Oct 26 Python
python定时利用QQ邮件发送天气预报的实例
Nov 17 Python
Python输出由1,2,3,4组成的互不相同且无重复的三位数
Feb 01 Python
python实现文本界面网络聊天室
Dec 12 Python
详解python的argpare和click模块小结
Mar 31 Python
python运用pygame库实现双人弹球小游戏
Nov 25 Python
Python读取YAML文件过程详解
Dec 30 Python
python中关于数据类型的学习笔记
Jul 19 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
php笔记之:初探PHPcms模块开发介绍
2013/04/26 PHP
PHP return语句另类用法不止是在函数中
2014/09/17 PHP
php函数mkdir实现递归创建层级目录
2016/10/27 PHP
javascript实现 百度翻译 可折叠的分享按钮列表
2015/03/12 Javascript
js父页面中使用子页面的方法
2016/01/09 Javascript
AngularJs Forms详解及简单示例
2016/09/01 Javascript
javascript的几种写法总结
2016/09/30 Javascript
详解Bootstrap各式各样的按钮(推荐)
2016/12/13 Javascript
vue.js加载新的内容(实例代码)
2017/06/01 Javascript
vue移动端裁剪图片结合插件Cropper的使用实例代码
2017/07/10 Javascript
JavaScript实现单击网页任意位置打开新窗口与关闭窗口的方法
2017/09/21 Javascript
vue+VeeValidate 校验范围实例详解(部分校验,全部校验)
2018/10/19 Javascript
跟老齐学Python之Import 模块
2014/10/13 Python
Centos5.x下升级python到python2.7版本教程
2015/02/14 Python
Python求出0~100以内的所有素数
2018/01/23 Python
TensorFLow用Saver保存和恢复变量
2018/03/10 Python
Python中staticmethod和classmethod的作用与区别
2018/10/11 Python
神经网络相关之基础概念的讲解
2018/12/29 Python
Python多线程的退出控制实现
2020/08/10 Python
Python 获取异常(Exception)信息的几种方法
2020/12/29 Python
Python爬取梨视频的示例
2021/01/29 Python
Ubuntu20.04环境安装tensorflow2的方法步骤
2021/01/29 Python
使用css3匹配手机屏幕横竖状态
2014/01/27 HTML / CSS
在线服装零售商:SheIn
2016/07/22 全球购物
英国广泛的照明产品网站:Lights4living
2018/01/28 全球购物
Linux文件操作命令都有哪些
2016/07/23 面试题
企业演讲稿范文
2013/12/28 职场文书
接受捐赠答谢词
2014/01/27 职场文书
坚定理想信念心得体会
2014/03/11 职场文书
2014年庆祝国庆65周年演讲稿
2014/09/21 职场文书
春季运动会开幕词
2015/01/28 职场文书
雷峰塔导游词
2015/02/09 职场文书
关于Javascript闭包与应用的详解
2021/04/22 Javascript
nginx实现动静分离的方法示例
2021/11/07 Servers
面试提问mysql一张表到底能存多少数据
2022/03/13 MySQL
一起来看看Vue的核心原理剖析
2022/03/24 Vue.js