时间:2021-05-23
根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据
求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果
取一下dataframe中B列各对象中C值最高所在的行
df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})Groupby的基本功能介绍
groupby以后返回DataFrameGroupBy对象,实际上还没有进行任何计算,只是一个暂时存储的容器,
[In]df.groupby('B')[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x11800f588>对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象,无法可视化
[In]df.groupby('B')['A'] # 返回SeriesGroupBy对象[Out]<pandas.core.groupby.SeriesGroupBy object at 0x117f6b630>[In]df.groupby('B')['A','C'] # 返回DataFrameGroupBy对象[Out]<pandas.core.groupby.DataFrameGroupBy object at 0x117fb84e0>需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作,才能生成可视化的数据(下文仅以count和size函数为例展示,不涉及其它的操作)
[In] df.groupby('B', as_index=False)['A'].count() # 组内数据统计[Out] B A 0 a 2 1 b 2[In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计,size和count的一个显著区别在于count不考虑Nan,size考虑Nan[Out] B Size 0 a 2 1 b 2对DataFrameGroupBy对象,用apply函数进行某列的sort_values排序,再选出其中的最大值所在行
# 返回值是一个带有multiindex的dataframe数据,其中level=0为groupby的by列,而level=1为原index[In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))[Out] A B CB a 3 4 a 201003 0 2 a 200801b 1 3 b 200902 2 5 b 200704# 通过设置group_keys参数对multiindex进行优化[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False))[Out] A B C 3 4 a 201003 0 2 a 200801 1 3 b 200902 2 5 b 200704# 再次groupby,并调用内置的first()方法,取最大值[In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index()[Out] B A C 0 a 4 201003 1 b 3 200902先对B进行整体的sort_values,在groupy取值
[In] df.sort_values('C', ascending=False).groupby('B').first().reset_index()[Out] B A C 0 a 4 201003 1 b 3 200902以上仅解决了Top-1的问题,如果是Top-k呢?
答案:将first()函数变为head()函数
[In] df.sort_values('C', ascending=False).groupby('B').head(2)[Out] A B C 3 4 a 201003 1 3 b 200902 0 2 a 200801 2 5 b 2007041、方案二,即先排序再groupby取值更方便
2、pandas中API众多,在实际使用时要捋清各步骤返回值的类型以方便记忆和联想
补充:pandas分组groupby、agg,排序sort,连接concat、join
横向连接
pd.concat([df6,df7],axis=1)df6.join(df7)# df6的表格在前面,如需df7的表格在前需要交换位置注意点:
1、concat这个方法,既可以实现横向连接,也可以实现纵向连接,通过设置axis的值来控制,axis=1表示的是横向连接,如果多个连接的对象,放在列表中
2、join也可以实现
纵向连接
pd.concat([df8,df9],ignore_index=True)注意点:
1、进行纵向合并的数据,需要用[]集合起来
2、ignore_index忽略原有的行索引,重新排列
3、drop_duplicates()删除重复数据
注意点:
1、groupby 如果指定的是一个列,如果是多个列[]
2、groupby返回的是一个对象,所以不能直接访问,可以使用for
如果筛选出一列数据[[列名]],返回的是dataframe对象
如果筛选出多个列数据,直接使用[]和[[]]均可
总结[[列1,列2,。。。。]]
以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
问题:pandas组内排序,并在每个分组内按序打上序号描述:pandasdataframe对dep_id组内的salary排序。希望给下面原本只有前三列的dat
一、groupby能做什么?python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算!对于数据的分组和分组运算主要是指groupby函数的
Oracle中groupby用法在select语句中可以使用groupby子句将行划分成较小的组,一旦使用分组后select操作的对象变为各个分组后的数据,使用
由于GROUPBY实际上也同样会进行排序操作,而且与ORDERBY相比,GROUPBY主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚
Java8的groupingBy实现集合的分组,类似Mysql的groupby分组功能,注意得到的是一个map对集合按照单个属性分组、分组计数、排序Listit