在pandas多指标中获取特殊组[英] Get special group in pandas multiindex

本文是小编为大家收集整理的关于在pandas多指标中获取特殊组的处理方法,想解了在pandas多指标中获取特殊组的问题怎么解决?在pandas多指标中获取特殊组问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

我有一个带有 MultiIndex 的 DataFrame,如下所示:

In [5]: df
Out[5]:
                 a   b
lvl0 lvl1 lvl2
A0   B0   C0     0   1
          C1     2   3
          C2     4   5
          C3     6   7
     B1   C0     8   9
          C1    10  11
          C2    12  13
          C3    14  15
A1   B0   C0    16  47
          C1    18  49
          C2    20  41
          C3    22  43
     B1   C0    24  25
          C1    26  27
          C2    28  29
          C3    30  31
A2   B0   C0    32  33
          C1    34  35
          C2    36  37
          C3    38  39
     B1   C0    40  41
          C1    42  43
          C2    44  45
          C3    46  47

我想在每个 lvl0 索引中获得特殊的 lvl1 组.在这种情况下,选择列 b 具有最大值的组,结果可能是这样的:

                 a   b
lvl0 lvl1 lvl2
A0   B1   C0     8   9
          C1    10  11
          C2    12  13
          C3    14  15
A1   B0   C0    16  47
          C1    18  49
          C2    20  41
          C3    22  43
A2   B1   C0    40  41
          C1    42  43
          C2    44  45
          C3    46  47

有没有像df[(('A0','B1'),('A1','B0'),('A2','B1')),:]这样的索引方法?我已经尽力了,谢谢你的帮助.

推荐答案

你可以使用:

df1 = df.reset_index(level=2, drop=True)
mask = df1.index.isin(df1.groupby(level=[0])['b'].idxmax())
df = df[mask]

print (df)
                 a   b
lvl0 lvl1 lvl2        
A0   B1   C0     8   9
          C1    10  11
          C2    12  13
          C3    14  15
A1   B0   C0    16  47
          C1    18  49
          C2    20  41
          C3    22  43
A2   B1   C0    40  41
          C1    42  43
          C2    44  45
          C3    46  47

解释:

首先删除 的 3 级 MultiIndexreset_indexgroupbyidxmax 用于列 b 中的最大值索引:

df1 = df.reset_index(level=2, drop=True)
idx = df1.groupby(level=[0])['b'].idxmax()
print (idx)
 lvl0
A0    (A0, B1)
A1    (A1, B0)
A2    (A2, B1)
Name: b, dtype: object

然后通过比较创建布尔掩码 isin:

print (df1.index.isin(idx))
[False False False False  True  True  True  True  True  True  True  True
 False False False False False False False False  True  True  True  True]

最后按 boolean indexing 过滤:

df = df[df1.index.isin(idx)]
print (df)
                 a   b
lvl0 lvl1 lvl2        
A0   B1   C0     8   9
          C1    10  11
          C2    12  13
          C3    14  15
A1   B0   C0    16  47
          C1    18  49
          C2    20  41
          C3    22  43
A2   B1   C0    40  41
          C1    42  43
          C2    44  45
          C3    46  47

本文地址:https://www.itbaoku.cn/post/1727764.html