pandas groupby分组对象的组内排序解决方案

时间：2021-05-23

问题：

根据数据某列进行分组，选择其中另一列大小top-K的的所在行数据

解析：

求解思路很清晰，即先用groupby对数据进行分组，然后再根据分组后的某一列进行排序，选择排序结果后的top-K结果

案例：

取一下dataframe中B列各对象中C值最高所在的行

df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象，实际上还没有进行任何计算，只是一个暂时存储的容器，

[In]df.groupby('B')[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象，无法可视化

[In]df.groupby('B')['A'] # 返回SeriesGroupBy对象[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>[In]df.groupby('B')['A','C'] # 返回DataFrameGroupBy对象[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作，才能生成可视化的数据(下文仅以count和size函数为例展示，不涉及其它的操作)

[In] df.groupby('B', as_index=False)['A'].count() # 组内数据统计[Out] B A 0 a 2 1 b 2[In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计，size和count的一个显著区别在于count不考虑Nan，size考虑Nan[Out] B Size 0 a 2 1 b 2

解决方案一：

对DataFrameGroupBy对象，用apply函数进行某列的sort_values排序，再选出其中的最大值所在行

# 返回值是一个带有multiindex的dataframe数据，其中level=0为groupby的by列，而level=1为原index[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))[Out] A B CB a 3 4 a 201003 0 2 a 200801b 1 3 b 200902 2 5 b 200704# 通过设置group_keys参数对multiindex进行优化[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))[Out] A B C 3 4 a 201003 0 2 a 200801 1 3 b 200902 2 5 b 200704# 再次groupby，并调用内置的first()方法，取最大值[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()[Out] B A C 0 a 4 201003 1 b 3 200902

解决方案二：

先对B进行整体的sort_values，在groupy取值

[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()[Out] B A C 0 a 4 201003 1 b 3 200902

问题拓展：

以上仅解决了Top-1的问题，如果是Top-k呢？

答案：将first()函数变为head()函数

[In] df.sort_values('C', ascending=False).groupby('B').head(2)[Out] A B C 3 4 a 201003 1 3 b 200902 0 2 a 200801 2 5 b 200704

总结：

1、方案二，即先排序再groupby取值更方便

2、pandas中API众多，在实际使用时要捋清各步骤返回值的类型以方便记忆和联想

补充：pandas分组groupby、agg，排序sort，连接concat、join

连接concat和join

横向连接

pd.concat([df6,df7],axis=1)df6.join(df7)# df6的表格在前面，如需df7的表格在前需要交换位置

注意点：

1、concat这个方法，既可以实现横向连接，也可以实现纵向连接，通过设置axis的值来控制，axis=1表示的是横向连接，如果多个连接的对象，放在列表中

2、join也可以实现

纵向连接

pd.concat([df8,df9],ignore_index=True)

注意点：

1、进行纵向合并的数据，需要用[]集合起来

2、ignore_index忽略原有的行索引，重新排列

3、drop_duplicates()删除重复数据

排序

#按照成绩排序df10.sort_values('score')#默认升序，从小到大df10.sort_values(['score','group'],ascending=False,na_position='first')#sort各个属性参数描述 by 字符串或者列表，如果是单个排序字段，使用的是字符串，如果指定多个，需要使用列表 ascending True的时候，是按照升序，默认是升序 na_position 表示的是空值的位置，'last'是默认的，'first'开始位置

分组

### groupbydf11.groupby('class')df11.groupby(['class','grade'])for cls,data in df11.groupby(['class','grade']):print(cls)print(data)

注意点：

1、groupby 如果指定的是一个列，如果是多个列[]

2、groupby返回的是一个对象，所以不能直接访问，可以使用for

筛选出分组之后的列

如果筛选出一列数据[[列名]]，返回的是dataframe对象

如果筛选出多个列数据，直接使用[]和[[]]均可

总结[[列1，列2，。。。。]]

聚合函数 agg配合使用

dff.groupby('class')[['math']].agg(['mean','max','min','median','std']) 函数描述 mean 均值 max 最大值 min 最小值 median 中位数 std 标准差 count 计数 skew 偏度 quantile 指定分位数

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

pandas groupby分组对象的组内排序解决方案

问题：

解析：

案例：

解决方案一：

解决方案二：

问题拓展：

总结：

连接concat和join

排序

分组

筛选出分组之后的列

聚合函数 agg配合使用

相关文章

pandas组内排序,并在每个分组内按序打上序号的操作

详解python中groupby函数通俗易懂

Oracle中分组查询group by用法规则详解

MySQL分组查询Group By实现原理详解

Java8 stream 中利用 groupingBy 进行多字段分组求和案例