编程 Python

Python DataFrame.groupby()聚合函数,分组级运算

Posted in Python onSeptember 18, 2018

pandas提供了一个灵活高效的groupby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。根据一个或多个键（可以是函数、数组或DataFrame列名）拆分pandas对象。计算分组摘要统计，如计数、平均值、标准差，或用户自定义函数。对DataFrame的列应用各种各样的函数。应用组内转换或其他运算，如规格化、线性回归、排名或选取子集等。计算透视表或交叉表。执行分位数分析以及其他分组分析。

groupby分组函数：

返回值：返回重构格式的DataFrame，特别注意，groupby里面的字段内的数据重构后都会变成索引

groupby(),一般和sum()、mean()一起使用，如下例：

先自定义生成数组

import pandas as pd
df = pd.DataFrame({'key1':list('ababa'),
  'key2': ['one','two','one','two','one'],
  'data1': np.random.randn(5),
  'data2': np.random.randn(5)})
print(df)

 data1 data2 key1 key2
0 -1.313101 -0.453361 a one
1 0.791463 1.096693 b two
2 0.462611 1.150597 a one
3 -0.216121 1.381333 b two
4 0.077367 -0.282876 a one

应用groupby,分组键均为Series(譬如df[‘xx'])，实际上分组键可以是任何长度适当的数组

#将df['data1']按照分组键为df['key1']进行分组
grouped=df['data1'].groupby(df['key1'])
print(grouped.mean())
key1
a -0.257707
b 0.287671
Name: data1, dtype: float64
states=np.array(['Ohio','California','California','Ohio','Ohio'])
years=np.array([2005,2005,2006,2005,2006])
#states第一层索引，years第二层分层索引
print(df['data1'].groupby([states,years]).mean())
California 2005 0.791463
 2006 0.462611
Ohio 2005 -0.764611
 2006 0.077367
Name: data1, dtype: float64
#df根据‘key1'分组，然后对df剩余数值型的数据运算
df.groupby('key1').mean()
 data1 data2
key1  
a -0.257707 0.138120
b 0.287671 1.239013
#可以看出没有key2列，因为df[‘key2']不是数值数据，所以被从结果中移除。默认情况下，所有数值列都会被聚合，虽然有时可能被过滤为一个子集。

对分组进行迭代

#name就是groupby中的key1的值，group就是要输出的内容
for name, group in df.groupby('key1'):
 print (name,group)
a data1 data2 key1 key2
0 -1.313101 -0.453361 a one
2 0.462611 1.150597 a one
4 0.077367 -0.282876 a one
b data1 data2 key1 key2
1 0.791463 1.096693 b two
3 -0.216121 1.381333 b two

对group by后的内容进行操作，可转换成字典

#转化为字典
piece=dict(list(df.groupby('key1')))
{'a': data1 data2 key1 key2
 0 -1.313101 -0.453361 a one
 2 0.462611 1.150597 a one
 4 0.077367 -0.282876 a one, 'b': data1 data2 key1 key2
 1 0.791463 1.096693 b two
 3 -0.216121 1.381333 b two}
#对字典取值
value = piece['a']

groupby默认是在axis=0上进行分组的，通过设置也可以在其他任何轴上进行分组

grouped=df.groupby(df.dtypes, axis=1)
value = dict(list(grouped))
print(value)
{dtype('float64'): data1 data2
0 -1.313101 -0.453361
1 0.791463 1.096693
2 0.462611 1.150597
3 -0.216121 1.381333
4 0.077367 -0.282876, dtype('O'): key1 key2
0 a one
1 b two
2 a one
3 b two
4 a one}

对于大数据，很多情况是只需要对部分列进行聚合

#对df进行'key1'，'key2'的两次分组，然后取data2的数据，对两次细分的分组数据取均值
value = df.groupby(['key1','key2'])[['data2']].mean()
 data2
key1 key2 
a one 0.138120
b two 1.239013
----------------------------------
df
Out[1]: 
 data1 data2 key1 key2
0 -1.313101 -0.453361 a one
1 0.791463 1.096693 b two
2 0.462611 1.150597 a one
3 -0.216121 1.381333 b two
4 0.077367 -0.282876 a one
----------------------------------
df['key2'].iloc[-1] ='two'
value = df.groupby(['key1','key2'])[['data2']].mean()
value
Out[2]: 
 data2
key1 key2 
a one 0.348618
 two -0.282876
b two 1.239013

Python中的分组函数（groupby、itertools）

from operator import itemgetter #itemgetter用来去dict中的key，省去了使用lambda函数
from itertools import groupby #itertool还包含有其他很多函数，比如将多个list联合起来。。
d1={'name':'zhangsan','age':20,'country':'China'}
d2={'name':'wangwu','age':19,'country':'USA'}
d3={'name':'lisi','age':22,'country':'JP'}
d4={'name':'zhaoliu','age':22,'country':'USA'}
d5={'name':'pengqi','age':22,'country':'USA'}
d6={'name':'lijiu','age':22,'country':'China'}
lst=[d1,d2,d3,d4,d5,d6]
#通过country进行分组：
lst.sort(key=itemgetter('country')) #需要先排序，然后才能groupby。lst排序后自身被改变
lstg = groupby(lst,itemgetter('country')) 
#lstg = groupby(lst,key=lambda x:x['country']) 等同于使用itemgetter()
for key,group in lstg:
 for g in group: #group是一个迭代器，包含了所有的分组列表
 print key,g
返回：
China {'country': 'China', 'age': 20, 'name': 'zhangsan'}
China {'country': 'China', 'age': 22, 'name': 'lijiu'}
JP {'country': 'JP', 'age': 22, 'name': 'lisi'}
USA {'country': 'USA', 'age': 19, 'name': 'wangwu'}
USA {'country': 'USA', 'age': 22, 'name': 'zhaoliu'}
USA {'country': 'USA', 'age': 22, 'name': 'pengqi'}
print [key for key,group in lstg] #返回：['China', 'JP', 'USA']
print [(key,list(group)) for key,group in lstg]
#返回的list中包含着三个元组：
[('China', [{'country': 'China', 'age': 20, 'name': 'zhangsan'}, {'country': 'China', 'age': 22, 'name': 'lijiu'}]), ('JP', [{'country': 'JP', 'age': 22, 'name': 'lisi'}]), ('USA', [{'country': 'USA', 'age': 19, 'name': 'wangwu'}, {'country': 'USA', 'age': 22, 'name': 'zhaoliu'}, {'country': 'USA', 'age': 22, 'name': 'pengqi'}])]
print dict([(key,list(group)) for key,group in lstg])
#返回的是一个字典：
{'JP': [{'country': 'JP', 'age': 22, 'name': 'lisi'}], 'China': [{'country': 'China', 'age': 20, 'name': 'zhangsan'}, {'country': 'China', 'age': 22, 'name': 'lijiu'}], 'USA': [{'country': 'USA', 'age': 19, 'name': 'wangwu'}, {'country': 'USA', 'age': 22, 'name': 'zhaoliu'}, {'country': 'USA', 'age': 22, 'name': 'pengqi'}]}
print dict([(key,len(list(group))) for key,group in lstg])
#返回每个分组的个数：
{'JP': 1, 'China': 2, 'USA': 3}

#返回包含有2个以上元素的分组
print [key for key,group in groupby(sorted(lst,key=itemgetter('country')),itemgetter('country')) if len(list(group))>=2]
#返回：['China', 'USA']

lstg = groupby(sorted(lst,key=itemgetter('country')),key=itemgetter('country')) 
lstgall=[(key,list(group)) for key,group in lstg ]
print dict(filter(lambda x:len(x[1])>2,lstgall)) 
#过滤出分组后的元素个数大于2个的分组，返回：
{'USA': [{'country': 'USA', 'age': 19, 'name': 'wangwu'}, {'country': 'USA', 'age': 22, 'name': 'zhaoliu'}, {'country': 'USA', 'age': 22, 'name': 'pengqi'}]}

自定义分组：

from itertools import groupby
lst=[2,8,11,25,43,6,9,29,51,66]

def gb(num):
 if num <= 10:
 return 'less'
 elif num >=30:
 return 'great'
 else:
 return 'middle'
print [(k,list(g))for k,g in groupby(sorted(lst),key=gb)]
返回：
[('less', [2, 6, 8, 9]), ('middle', [11, 25, 29]), ('great', [43, 51, 66])]

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python DataFrame.groupby()聚合函数,分组级运算

- Author -

brucewong0516

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python写的一个文本编辑器

Jan 23 Python

在Python中移动目录结构的方法

Jan 31 Python

python队列通信:rabbitMQ的使用(实例讲解)

Dec 22 Python

python获取中文字符串长度的方法

Nov 14 Python

Python设计模式之建造者模式实例详解

Jan 17 Python

python 文件的基本操作菜中菜功能的实例代码

Jul 17 Python

python实现猜拳小游戏

Apr 05 Python

详解python statistics模块及函数用法

Oct 27 Python

Python基于os.environ从windows获取环境变量

Jun 09 Python

python调试工具Birdseye的使用教程

May 25 Python

Python中的 Set 与 dict

Mar 13 Python

Python使用DFA算法过滤内容敏感词

Apr 22 Python

python 3.6.2 安装配置方法图文教程

Sep 18 #Python

Python对CSV、Excel、txt、dat文件的处理

Sep 18 #Python

python 3.6.4 安装配置方法图文教程

Sep 18 #Python

python 3.6.5 安装配置方法图文教程

Sep 18 #Python

python的pip安装以及使用教程

Sep 18 #Python

windows下python安装小白入门教程

Sep 18 #Python

使用Python如何测试InnoDB与MyISAM的读写性能

Sep 18 #Python

i7 6700(1) win11(40) 对讲机(1) i5 10400(1) React(6) Tomcat(18) GTX1660(1) i5 9400(1) ipad(1) win10(43)

You might like

PHP 正则判断中文UTF-8或GBK的思路及具体实现

2013/11/26 PHP

PHP FATAL ERROR: CALL TO UNDEFINED FUNCTION BCMUL()解决办法

2014/05/04 PHP

PHP输出九九乘法表代码实例

2015/03/27 PHP

用JavaScript实现仿Windows关机效果

2007/03/10 Javascript

js中cookie的添加、取值、删除示例代码

2013/10/21 Javascript

jQuery实现倒计时按钮功能代码分享

2014/09/03 Javascript

JavaScript中利用各种循环进行遍历的方式总结

2015/11/10 Javascript

快速掌握Node.js模块封装及使用

2016/03/21 Javascript

js弹出框、对话框、提示框、弹窗实现方法总结(推荐)

2016/05/31 Javascript

微信小程序定义全局数据、函数复用、模版等详细介绍

2016/10/27 Javascript

jquery精度计算代码 jquery指定精确小数位

2017/02/06 Javascript

jquery拖动改变div大小

2017/07/04 jQuery

在 webpack 中使用 ECharts的实例详解

2018/02/05 Javascript

vue通过video.js解决m3u8视频播放格式的方法

2019/07/30 Javascript

[02:43]中国五虎出征TI3视频

2013/08/02 DOTA

[05:59]2018DOTA2国际邀请赛寻真——只为胜利的Secret

2018/08/13 DOTA

常见的在Python中实现单例模式的三种方法

2015/04/08 Python

PyQt5打开文件对话框QFileDialog实例代码

2018/02/07 Python

替换python字典中的key值方法

2018/07/06 Python

对python dataframe逻辑取值的方法详解

2019/01/30 Python

python如何读取bin文件并下发串口

2019/07/05 Python

Python 日志logging模块用法简单示例

2019/10/18 Python

PyCharm 2019.3发布增加了新功能一览

2019/12/08 Python

Python 爬虫的原理

2020/07/30 Python

通俗易懂了解Python装饰器原理

2020/09/17 Python

Python操作PostgreSql数据库的方法(基本的增删改查)

2020/12/29 Python

Volcom法国官网：美国冲浪滑板品牌

2017/05/25 全球购物

Snapfish爱尔兰：在线照片打印和个性化照片礼品

2018/09/17 全球购物

台湾7-ELEVEN线上购物中心：7-11

2021/01/21 全球购物

马云的职业生涯规划之路

2014/01/01 职场文书

党课学习思想汇报

2014/01/02 职场文书

婚礼主持结束词

2014/03/13 职场文书

培训协议书范本

2014/04/22 职场文书

你为什么是穷人？可能是这5个缺点造成

2019/07/11 职场文书

一文搞懂Python Sklearn库使用

2021/08/23 Python

windows11怎么查看wifi密码? win11查看wifi密码的技巧

2021/11/21 数码科技