时间:2021-05-22
在数据预处理过程中可能会遇到这样的问题,如下图:数据中某一个key有多组数据,如何分别对每个key进行相同的运算?
dataframe里面给出了一个group by的一个操作,对于”group by”操作,我们通常是指以下一个或多个操作步骤:
l (Splitting)按照一些规则将数据分为不同的组;
l (Applying)对于每组数据分别执行一个函数;
l (Combining)将结果组合到一个数据结构中;
使用dataframe实现groupby的用法:
# -*- coding: UTF-8 -*-import pandas as pddf = pd.DataFrame([{'col1':'a', 'col2':1, 'col3':'aa'}, {'col1':'b', 'col2':2, 'col3':'bb'}, {'col1':'c', 'col2':3, 'col3':'cc'}, {'col1':'a', 'col2':44, 'col3':'aa'}])print df# 按col1分组并按col2求和print df.groupby(by='col1').agg({'col2':sum}).reset_index()# 按col1分组并按col2求最值print df.groupby(by='col1').agg({'col2':['max', 'min']}).reset_index()# 按col1 ,col3分组并按col2求和print df.groupby(by=['col1', 'col3']).agg({'col2':sum}).reset_index()输出结果为:
col1 col2 col3 0 a 1 aa 1 b 2 bb 2 c 3 cc 3 a 44 aa col1 col2 0 a 45 1 b 2 2 c 3 col1 col2 max min 0 a 44 1 1 b 2 2 2 c 3 3 col1 col3 col2 0 a aa 45 1 b bb 2 2 c cc 3注意点:
代码中调用了reset_index() 函数, 如果不使用这个函数输出的结果将是:
col2col1 a 45b 2c 3 col2 max mincol1 a 44 1b 2 2c 3 3 col2col1 col3 a aa 45b bb 2c cc 3上下两个结果还是有区别的,但是具体区别暂时不太清楚,不过下面的一种输出结果是不能跟使用df['col1']来提取第一列的。至于是什么原因暂时还不清楚,如果您对pandas比较理解或者知道原因,欢迎在评论中留言。
以上这篇pandas数据预处理之dataframe的groupby操作方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
pandas可以将读取到的表格型数据(文件不一定要是表格)转成DataFrame类型的数据结构,然后我们可以通过操作DataFrame进行数据分析,数据预处理以
Pandas类似R语言中的数据框(DataFrame),Pandas基于Numpy,但是对于数据框结构的处理比Numpy要来的容易。1.Pandas的基本数据结
前言Pandas是python的一个数据分析包,提供了大量的快速便捷处理数据的函数和方法。其中Pandas定义了Series和DataFrame两种数据类型,这
Pandas之drop_duplicates:去除重复项方法DataFrame.drop_duplicates(subset=None,keep='first'
在数据预处理过程中可能需要将列的顺序颠倒,有两种方法。importnumpyasnpimportpandasaspddf=pd.DataFrame(np.arr