浅谈pandas用groupby后对层级索引levels的处理方法


Posted in Python onNovember 06, 2018

层及索引levels,刚开始学习pandas的时候没有太多的操作关于groupby,仅仅是简单的count、sum、size等等,没有更深入的利用groupby后的数据进行处理。近来数据处理的时候有遇到这类问题花了一点时间,所以这里记录以及复习一下:(以下皆是个人实践后的理解)

我使用一个实例来讲解下面的问题:一张数据表中有三列(动物物种、物种品种、品种价格),选出每个物种从大到小品种的前两种,最后只需要品种和价格这两列。

浅谈pandas用groupby后对层级索引levels的处理方法

以上这张表是我们后面需要处理的数据表 (物种 品种 价格)

levels:层及索引 (创建pandas类型时可以预先定义;使用groupby后也会生成)

我们看看levels什么样(根据df1物种分类,再根据df2品种排序后 如下图)

浅谈pandas用groupby后对层级索引levels的处理方法

图中可以看出,根据groupby分类后的cat、dog便是level,以及后面的一列原始位置索引也是level

好了现在简单了解levels,我们该如何对它进行处理,如何完成上面的实例呢?(可能你拿到这样的层级数据,不会操作,不知道如何提取其中的信息)

代码及讲解如下:

首先导入pandas、numpy库,以及创建原始数据:

import pandas as pd
import numpy as np
df = pd.DataFrame({'df1':['cat','cat','dog','cat','dog','dog'],'df2':[2,3,4,1,3,1],'df3':[100,200,100,300,200,200]})

原始数据最上面那张图

下面我们根据物种来分类,并且使用apply调用sort_df2函数对品种进行排序:

def sort_df2(data):
 data = data.sort_values(by='df2',ascending=False) #df2:品种列 ascending:排序方式
 return data
group = df.groupby(df['df1']).apply(sort_df2) #groupby以及apply的结合使用

处理后数据,上面第二张图

print(group.index) #看看groupby后的行索引什么样

浅谈pandas用groupby后对层级索引levels的处理方法

groupby后如上图,有层级标签(这里两列),labels标签(分类,位置)

这里我们需要的是第一层级标签的第一列(也就是cat、dog)

levels = group.index.levels[0] #取出第一级标签:

下面将是两层循环,完成从中选出(物种前两个品种以及它的价格),很简单的操作:

values = []
for i in levels:
 mid_group = group.loc[i] #选出i标签物种的所有品种
 mid_group = mid_group.iloc[:2,:] #我们只取排序后的品种的前两种(要注意这里使用iloc,它与loc的区别)
 cnt = len(mid_group) #为了防止循环长度错误,所以我们还是需要计算长度,因为如果真正数据不足2条还是不报错
 for j in range(cnt): #现在在每个物种cat、dog中操作
 value = mid_group.iloc[j,:] #我们选出该物种的第j条所有信息df1、df2、df3
 value_pro = (value['df2'],value['df3']) #然后只取df2、df3,将它们放到元组中
 values.append(value_pro)

所有的操作完成了,我们看看结果:

print(values) #此时在列表中保存了上面提取的元组信息,我们可以使用pandas再次转换它们为DataFrame,也可以做其它操作

浅谈pandas用groupby后对层级索引levels的处理方法

我觉得这个例子比较形象,但是还是有逻辑欠缺的地方,不过不重要,看懂了上面的例子,基本上就能了解和处理层级数据了。当然这里的数据简单,只是为了更好的理解,真正的处理数据时,可能会出现更为复杂的层级结构,这时需要能够更灵活的处理,如果你有更好的理解和建议,可以回复。

-------更新(增加对两层索引的操作)--------

在原来的基础上增加一列df4表示动物的大小特征

df = pd.DataFrame({'df1':['cat','cat','dog','cat','dog','dog'],'df2':[2,3,4,1,3,1],'df3':[100,200,100,300,200,200],'df4':['大','中','小','巨大','小','中']})

浅谈pandas用groupby后对层级索引levels的处理方法

此时根据df1、df4两列来分类,再对两层的层级索引操作:

df_group = df.groupby(['df1','df4']).size()

浅谈pandas用groupby后对层级索引levels的处理方法

分类后得到的是对应两个特征的动物数量,现在来取得其中的值:

print(df_group.index)
h = df_group.loc[['cat','df4']]
print(h)

先查看数据的index信息,从中我们可以看到两层索引对应的levels有两中,然后我们根据loc测试选出cat类的df4这一列(也可以填大、中、巨大选出一列)

浅谈pandas用groupby后对层级索引levels的处理方法

这样就得到了cat种类的信息,当然也可以选出dog种类,那么如何得出(cat,巨大,1)这样的一一对应的数据呢?

df1_name = df_group.index.levels[0]     #获得第一层的分类cat、dog
for i in range(len(df1_name)):  #循环遍历第一层
 df_level = df_group.loc[[df1_name[i],'df4']] #这里是选出第一层的所有信息
 df_level_ch = pd.DataFrame(df_level)   #由于上面得到是Series我们需要将它转换为DataFrame才能更好的操作
 for j in range(len(df_level_ch)):   #开始对第二层进行遍历
  a = df_level_ch.ix[j].name    #由于是DataFrame所以可以取每一行的name值('cat','大')
  b = df_level_ch.values[j][0]   #获取对应数量,由于是嵌套列表,所以我们逐层获取
  print(a,b)

浅谈pandas用groupby后对层级索引levels的处理方法

基本上是筛选出来了,还是很简单的。这只是其中的一个例子,如果遇到需要其他的操作,可以根据这个例子来随机变换。

这个方法虽然可以筛选,但是个人觉得数据量过大,就不是很好,暂时没有更好的方法,如果那位朋友有其他操作,可以分享一下。

以上这篇浅谈pandas用groupby后对层级索引levels的处理方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python编写分析Python程序性能的工具的教程
Apr 01 Python
python查询sqlite数据表的方法
May 08 Python
Python中for循环控制语句用法实例
Jun 02 Python
六个窍门助你提高Python运行效率
Jun 09 Python
再谈Python中的字符串与字符编码(推荐)
Dec 14 Python
浅谈Python浅拷贝、深拷贝及引用机制
Dec 15 Python
Python标准模块--ContextManager上下文管理器的具体用法
Nov 27 Python
谈谈python中GUI的选择
Mar 01 Python
Python使用requests提交HTTP表单的方法
Dec 26 Python
python写入文件自动换行问题的方法
Jul 05 Python
解析Python3中的Import
Oct 13 Python
Python+pyaudio实现音频控制示例详解
Jul 23 Python
Python Series从0开始索引的方法
Nov 06 #Python
在Python中pandas.DataFrame重置索引名称的实例
Nov 06 #Python
pandas重新生成索引的方法
Nov 06 #Python
对pandas数据判断是否为NaN值的方法详解
Nov 06 #Python
删除DataFrame中值全为NaN或者包含有NaN的列或行方法
Nov 06 #Python
解决pandas.DataFrame.fillna 填充Nan失败的问题
Nov 06 #Python
对Pandas DataFrame缺失值的查找与填充示例讲解
Nov 06 #Python
You might like
后宫无数却洁身自好的男主,唐三只爱小舞
2020/03/02 国漫
利用jquery操作select下拉列表框的代码
2010/06/04 Javascript
jQuery 源码分析笔记(2) 变量列表
2011/05/28 Javascript
Jquery post传递数组方法实现思路及代码
2013/04/28 Javascript
jQuery实现瀑布流的取巧做法分享
2015/01/12 Javascript
JavaScript之数组(Array)详解
2015/04/01 Javascript
jQuery插件StickUp实现网页导航置顶
2015/04/12 Javascript
JS获取中文拼音首字母并通过拼音首字母快速查找页面内对应中文内容的方法【附demo源码】
2016/08/19 Javascript
JS插件plupload.js实现多图上传并显示进度条
2016/11/29 Javascript
详解vue的数据binding绑定原理
2017/04/12 Javascript
jQuery动画_动力节点节点Java学院整理
2017/07/04 jQuery
使用async-validator编写Form组件的方法
2018/01/10 Javascript
Vue之Vue.set动态新增对象属性方法
2018/02/23 Javascript
vue用递归组件写树形控件的实例代码
2018/07/19 Javascript
详解vue项目中使用token的身份验证的简单实践
2019/03/08 Javascript
JavaScript实现随机点名程序
2020/03/25 Javascript
在elementui中Notification组件添加点击事件实例
2020/11/11 Javascript
python中二维阵列的变换实例
2014/10/09 Python
linux环境下python中MySQLdb模块的安装方法
2017/06/16 Python
Python栈算法的实现与简单应用示例
2017/11/01 Python
python实现词法分析器
2019/01/31 Python
详解Python Qt的窗体开发的基本操作
2019/07/14 Python
python 根据字典的键值进行排序的方法
2019/07/24 Python
详细介绍Python进度条tqdm的使用
2019/07/31 Python
sklearn+python:线性回归案例
2020/02/24 Python
Python unittest单元测试openpyxl实现过程解析
2020/05/27 Python
Python判断远程服务器上Excel文件是否被人打开的方法
2020/07/13 Python
Python爬虫后获取重定向url的两种方法
2021/01/19 Python
使用layui框架实现点击左侧导航切换右侧内容且右侧选项卡跟随变化的效果
2020/11/10 HTML / CSS
Dyson加拿大官方网站:购买戴森吸尘器,风扇,冷热器及配件
2016/10/26 全球购物
全球精选男装和家居用品:Article
2020/04/13 全球购物
学位证书委托书
2014/09/30 职场文书
2015年员工试用期工作总结
2014/12/12 职场文书
2014年社区卫生工作总结
2014/12/18 职场文书
品质保证书格式
2015/02/28 职场文书
鉴史问廉观后感
2015/06/10 职场文书