• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

pandas groupby分组对象的组内排序解决方案

python 搞代码 4年前 (2022-01-08) 20次浏览 已收录 0个评论
文章目录[隐藏]

这篇文章主要介绍了pandas groupby分组对象的组内排序解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

问题:

根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据

解析:

求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果

案例:

取一下dataframe中B列各对象中C值最高所在的行

 df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [200801, 200902, 200704, 201003]})

Groupby的基本功能介绍

groupby以后返回DataFrameGroupBy对象,实际上还没有进行任何计算,只是一个暂时存储的容器,

 [In]df.groupby('B') [Out]

对groupby结果进行简单的列选取返回的也是DataFrameGroupBy/SeriesGroupBy对象,无法可视化

 [In]df.groupby('B')['A']   # 返回SeriesGroupBy对象 [Out] [In]df.groupby('B')['A','C']   # 返回DataFrameGroupBy对象 [Out]

需要对DataFrameGroupBy进行计数、统计、agg聚合计算、apply映射计算和transform等操作,才能生成可视化的数据(下文仅以count和size函数为例展示,不涉及其它的操作)

 [In] df.groupby('B', as_index=False)['A'].count()  # 组内数据统计 [Out] B A 0 a 2 1 b 2 [In] df.groupby('B')['A'].size().reset_index(name='Size') # 组内数据统计,size和count的一个显著区别在于count不考虑Nan,size考虑Nan [Out] B Size 0  a 2 1  b 2 

解决方案一:

对DataFrameGroupBy对象,用apply函数进行某列的sort_values排序,再选出其中的最大值所在行

 # 返回值是一个带有multiindex的dataframe数据,其中level=0为groupby的by列,而level=1为原index [In] df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False)) [Out] A B C B a 3 4 a 201003 0 2 a 200801 b 1 3 b 200902 2 5 b 200704 # 通过设置group_keys参数对multiindex进行优化 [In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)) [Out] A B  C 3 4 a 201003 0 2 a 200801 1 3 b 200902 2 5 b 200704 # 再次groupby,并调用内置的first()方法,取最大值 [In] df.groupby('B', group_keys=False).apply(lambda x: x.sort_values('C', ascending=False)).groupby('B').first().reset_index() [Out]  B A  C 0 a 4 201003 1 b 3 200902 

解决方案二:

先对B进行整体的sort_values,在groupy取值

 [In] df.sort_values('C', ascending=False).groupby('B').first().reset_index() [Out]  B A  C 0 a 4 201003 1 b 3 200902

问题拓展:

以上仅解决了Top-1的问题,如果是Top-k呢?

答案:将first()函数变为head()函数

 [In] df.sort_values('C', ascending=False).groupby('B').head(2) [Out] A B C 3 4 a 201003 1 3 b 200902 0 2 a 200801 2 5 b 200704

总结:

1、方案二,即先排序再groupby取值更方便

2、pandas中API众多,在实际使用时要捋清各步骤返回值的类型以方便记忆和联想

补充:pandas分组groupby、agg,排序sort,连接concat、join

连接concat和join

横向连接

 pd.concat([df6,df7],axis=1) df6.join(df7) # df6的表格在前面,如需df7的表格在前需要交换位置 

注意点:

1、concat这个方法,既可以实现横向连接,也可以实现纵向连接,通过设置axis的值来控制,axis=1表示的是横向连接,如果多个连接的对象,放在列表中

2、join也可以实现

纵向连接

 pd.concat([df8,df9],ignore_index=True)

注意点:

1、进行纵向合并的数据,需要用[]集合起来

2、ignore_index忽略原有的行索引,重新排列

3、drop_duplicates()删除重复数据

排序

 #按照成绩排序 df10.sort_values('score') #默认升序,从小到大 df10.sort_values(['score','group'],ascending=False,na_position='first') #sort各个属性 
参数 描述
by 字符串或者列表,如果是单个排序字段,使用的是字符串,如果指定多个,需要使用列表
ascending True的时候,是按照升序,默认是升序
na_position 表示的是空值的位置,’last’是默认的,’first’开始位置

分组

 ### groupby df11.groupby('class') df11.groupby(['class','grade']) for cls,data in df11.groupby(['class','grade']): print(cls) print(data) 

注意点:

1、groupby 如果指定的是一个列,如果是多个列[]

2、groupby返回的是一个对象,所以不能直接访问,可以使用for

筛选出分组之后的列

如果筛选出一列数据[[列名]],返回的是dataframe对象

如果筛选出多个列数据,直接使用[]和[[]]均可

总结[[列1,列2,。。。。]]

聚合函数 agg配合使用

 dff.groupby('class')[['math']].agg(['mean','max','min','median','std'])
函数 描述
mean 均值
max 最大值
min 最小值
median 中位数
std 标准差
count 计数
skew 偏度
quantile 指定分位数

以上就是pandas groupby分组对象的组内排序解决方案的详细内容,更多请关来源gao($daima.com搞@代@#码(网gaodaima搞代码网其它相关文章!


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:pandas groupby分组对象的组内排序解决方案

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址