Python 数据的累加与统计的示例代码


Posted in Python onAugust 03, 2020

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用 Pandas库 。

为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的 老鼠和啮齿类动物数据库 的例子。 在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>

嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^

讨论

Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。 但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容,更多关于Python 数据的累加与统计的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python实现的端口扫描功能示例
Apr 08 Python
Python subprocess库的使用详解
Oct 26 Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 Python
手机使用python操作图片文件(pydroid3)过程详解
Sep 25 Python
python实现两个一维列表合并成一个二维列表
Dec 02 Python
python函数定义和调用过程详解
Feb 09 Python
基于Keras 循环训练模型跑数据时内存泄漏的解决方式
Jun 11 Python
keras导入weights方式
Jun 12 Python
使用SimpleITK读取和保存NIfTI/DICOM文件实例
Jul 01 Python
django 获取字段最大值,最新的记录操作
Aug 09 Python
PyCharm最新激活码(2020/10/27全网最新)
Oct 27 Python
浅谈Python列表嵌套字典转化的问题
Apr 07 Python
Python 爬虫性能相关总结
Aug 03 #Python
python接口自动化之ConfigParser配置文件的使用详解
Aug 03 #Python
Python 利用OpenCV给照片换底色的示例代码
Aug 03 #Python
Python3基于plotly模块保存图片表格
Aug 03 #Python
详解Python的爬虫框架 Scrapy
Aug 03 #Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
You might like
CI框架集成Smarty的方法分析
2016/05/17 PHP
PHP不使用递归的无限级分类简单实例
2016/11/05 PHP
对YUI扩展的Gird组件 Part-1
2007/03/10 Javascript
Open and Print a Word Document
2007/06/15 Javascript
JavaScript 组件之旅(二)编码实现和算法
2009/10/28 Javascript
offsetParent 算法分析
2010/04/05 Javascript
iframe的onreadystatechange事件在firefox下的使用
2014/04/16 Javascript
js实现浮动在网页右侧的简洁QQ在线客服代码
2015/09/04 Javascript
jQuery横向擦除焦点图特效代码分享
2015/09/06 Javascript
浅谈Sticky组件的改进实现
2016/03/22 Javascript
JavaScript遍历求解数独问题的主要思路小结
2016/06/12 Javascript
JavaScript中数组的22种方法必学(推荐)
2016/07/20 Javascript
jquery实现下拉框左右选择功能
2017/02/21 Javascript
浅谈sass在vue注意的地方
2017/08/10 Javascript
从vue源码看props的用法
2019/01/09 Javascript
JavaScript跳出循环的三种方法(break, return, continue)
2019/07/30 Javascript
Javascript异步编程async实现过程详解
2020/04/02 Javascript
[43:18]NB vs Infamous 2019国际邀请赛淘汰赛 败者组 BO3 第一场 8.22
2019/09/05 DOTA
基于wxpython开发的简单gui计算器实例
2015/05/30 Python
在pycharm上mongodb配置及可视化设置方法
2018/11/30 Python
Python后台开发Django会话控制的实现
2019/04/15 Python
简单了解Django ContentType内置组件
2019/07/23 Python
python写程序统计词频的方法
2019/07/29 Python
Django自定义列表 models字段显示方式
2020/04/03 Python
Python定义一个函数的方法
2020/06/15 Python
python 数据类型强制转换的总结
2021/01/25 Python
详解Canvas 跨域脱坑实践
2018/11/07 HTML / CSS
瑞士领先的网上超市:LeShop.ch
2018/11/14 全球购物
医院办公室主任职责
2013/12/29 职场文书
应届生自荐书
2014/06/23 职场文书
2014年教研室工作总结
2014/12/06 职场文书
爱心捐书倡议书
2015/04/27 职场文书
幼儿园家长反馈意见
2015/06/03 职场文书
反腐倡廉学习心得体会范文
2015/08/15 职场文书
粗暴解决CUDA out of memory的问题
2021/05/22 Python
利用 Python 的 Pandas和 NumPy 库来清理数据
2022/04/13 Python