pandas数据预处理之dataframe的groupby操作方法

下面小编就为大家分享一篇pandas数据预处理之dataframe的groupby操作方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

在数据预处理过程中可能会遇到这样的问题，如下图：数据中某一个key有多组数据，如何分别对每个key进行相同的运算？

dataframe里面给出了一个group by的一个操作，对于”group by”操作，我们通常是指以下一个或多个操作步骤：

l （Splitting）按照一些规则将数据分为不同的组；

l （Applying）对于每组数据分别执行一个函数；

l （Combining）将结果组合到一个数据结构中；

使用dataframe实现groupby的用法：

 # -*- coding: UTF-8 -*- import pandas as pd df = pd.DataFrame([{'col1':'a', 'col2':1, 'col3':'aa'}, {'col1':'b', 'col2':2, 'col3':'bb'}, {'col1':'c', 'col2':3, 'col3':'cc'}, {'col1':'a', 'col2':44, 'col3':'aa'}]) print df # 按col1<em style="color:transparent">来源gao.dai.ma.com搞@代*码网</em>分组并按col2求和 print df.groupby(by='col1').agg({'col2':sum}).reset_index() # 按col1分组并按col2求最值 print df.groupby(by='col1').agg({'col2':['max', 'min']}).reset_index() # 按col1 ，col3分组并按col2求和 print df.groupby(by=['col1', 'col3']).agg({'col2':sum}).reset_index()

输出结果为：

 col1 col2 col3 0  a   1  aa 1  b   2  bb 2  c   3  cc 3  a  44  aa

 col1 col2 0  a  45 1  b   2 2  c   3

 col1 col2 max min 0  a  44  1 1  b  2  2 2  c  3  3

 col1 col3 col2 0  a  aa  45 1  b  bb   2 2  c  cc   3

注意点：

代码中调用了reset_index() 函数, 如果不使用这个函数输出的结果将是：

 col2 col1 a    45 b    2 c    3 col2 max min col1 a   44  1 b    2  2 c    3  3 col2 col1 col3 a  aa   45 b  bb    2 c  cc    3

上下两个结果还是有区别的，但是具体区别暂时不太清楚，不过下面的一种输出结果是不能跟使用df[‘col1’]来提取第一列的。至于是什么原因暂时还不清楚，如果您对pandas比较理解或者知道原因，欢迎在评论中留言。

以上就是pandas数据预处理之dataframe的groupby操作方法的详细内容，更多请关注gaodaima搞代码网其它相关文章！

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：pandas数据预处理之dataframe的groupby操作方法

Hi，您需要填写昵称和邮箱！