Uzyskaj statystyki dla każdej grupy (takie jak count, mean, etc) za pomocą pandas GroupBy?

Question

Uzyskaj statystyki dla każdej grupy (takie jak count, mean, etc) za pomocą pandas GroupBy?

Mam ramkę danych df i używam kilku kolumn od niej do groupby:

df['col1','col2','col3','col4'].groupby(['col1','col2']).mean()

W powyższy sposób prawie dostaję tabelę (ramkę danych), której potrzebuję. Brakuje dodatkowej kolumny, która zawiera liczbę wierszy w każdej grupie. Innymi słowy, mam średnią, ale chciałbym również wiedzieć, ile liczba została użyta do uzyskania tych środków. Na przykład w pierwszej grupie jest 8 wartości, a w drugiej 10 i tak dalej.

W skrócie: jak uzyskać grupowe statystyki dla ramki danych?

530

python pandas dataframe group-by pandas-groupby

Author: cs95, 2013-10-15

Source

7 answers

Szybka Odpowiedź:

Najprostszym sposobem na uzyskanie liczby wierszy dla grupy jest wywołanie .size(), które zwraca Series:

df.groupby(['col1','col2']).size()

Zwykle chcesz, aby ten wynik był DataFrame (zamiast Series), więc możesz to zrobić:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

Jeśli chcesz dowiedzieć się jak obliczyć liczbę wierszy i inne statystyki dla każdej grupy Czytaj dalej poniżej.

Szczegółowy przykład:

Rozważ następujący przykład ramki danych:

In [2]: df
Out[2]: 
  col1 col2  col3  col4  col5  col6
0    A    B  0.20 -0.61 -0.49  1.49
1    A    B -1.53 -1.01 -0.39  1.82
2    A    B -0.44  0.27  0.72  0.11
3    A    B  0.28 -1.32  0.38  0.18
4    C    D  0.12  0.59  0.81  0.66
5    C    D -0.13 -1.65 -1.64  0.50
6    C    D -1.42 -0.11 -0.18 -0.44
7    E    F -0.00  1.42 -0.26  1.17
8    E    F  0.91 -0.47  1.35 -0.34
9    G    H  1.48 -0.63 -1.14  0.17

Pierwszy użyjmy .size() aby uzyskać liczbę wierszy:

In [3]: df.groupby(['col1', 'col2']).size()
Out[3]: 
col1  col2
A     B       4
C     D       3
E     F       2
G     H       1
dtype: int64

Następnie użyjmy .size().reset_index(name='counts') aby uzyskać liczbę wierszy:

In [4]: df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Out[4]: 
  col1 col2  counts
0    A    B       4
1    C    D       3
2    E    F       2
3    G    H       1

W Tym wyniki dla większej liczby statystyk

Gdy chcesz obliczyć statystyki na zgrupowanych danych, zwykle wygląda to tak:

In [5]: (df
   ...: .groupby(['col1', 'col2'])
   ...: .agg({
   ...:     'col3': ['mean', 'count'], 
   ...:     'col4': ['median', 'min', 'count']
   ...: }))
Out[5]: 
            col4                  col3      
          median   min count      mean count
col1 col2                                   
A    B    -0.810 -1.32     4 -0.372500     4
C    D    -0.110 -1.65     3 -0.476667     3
E    F     0.475 -0.47     2  0.455000     2
G    H    -0.630 -0.63     1  1.480000     1

Powyższy wynik jest nieco irytujący ze względu na zagnieżdżone etykiety kolumn, a także dlatego, że liczba wierszy jest obliczana na podstawie kolumny.

Aby uzyskać większą kontrolę nad wyjściem I zazwyczaj dzielę statystyki na poszczególne agregacje, które następnie łączę za pomocą join. Wygląda to tak:

In [6]: gb = df.groupby(['col1', 'col2'])
   ...: counts = gb.size().to_frame(name='counts')
   ...: (counts
   ...:  .join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'}))
   ...:  .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'}))
   ...:  .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'}))
   ...:  .reset_index()
   ...: )
   ...: 
Out[6]: 
  col1 col2  counts  col3_mean  col4_median  col4_min
0    A    B       4  -0.372500       -0.810     -1.32
1    C    D       3  -0.476667       -0.110     -1.65
2    E    F       2   0.455000        0.475     -0.47
3    G    H       1   1.480000       -0.630     -0.63

Przypisy

Kod użyty do wygenerowania danych testowych przedstawiono poniżej:

In [1]: import numpy as np
   ...: import pandas as pd 
   ...: 
   ...: keys = np.array([
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['C', 'D'],
   ...:         ['C', 'D'],
   ...:         ['C', 'D'],
   ...:         ['E', 'F'],
   ...:         ['E', 'F'],
   ...:         ['G', 'H'] 
   ...:         ])
   ...: 
   ...: df = pd.DataFrame(
   ...:     np.hstack([keys,np.random.randn(10,4).round(2)]), 
   ...:     columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6']
   ...: )
   ...: 
   ...: df[['col3', 'col4', 'col5', 'col6']] = \
   ...:     df[['col3', 'col4', 'col5', 'col6']].astype(float)
   ...:

Zastrzeżenie:

Jeśli niektóre kolumny, które agregujesz, mają wartości null, to naprawdę chcesz patrzeć na liczbę wierszy grupy jako niezależną agregację dla każdej kolumny. W przeciwnym razie możesz być wprowadza w błąd, ile rekordów jest faktycznie używanych do obliczania rzeczy takich jak średnia, ponieważ pandy spadną NaN wpisy w obliczeniach średniej, nie mówiąc ci o tym.

1058

Author: Pedro M Duarte,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2018-05-30 06:35:52

Szwajcarski Nóż Wojskowy: `GroupBy.describe`

Zwraca count, mean, std, i inne przydatne statystyki dla poszczególnych grup.

df.groupby(['A', 'B'])['C'].describe()

           count  mean   std   min   25%   50%   75%   max
A   B                                                     
bar one      1.0  0.40   NaN  0.40  0.40  0.40  0.40  0.40
    three    1.0  2.24   NaN  2.24  2.24  2.24  2.24  2.24
    two      1.0 -0.98   NaN -0.98 -0.98 -0.98 -0.98 -0.98
foo one      2.0  1.36  0.58  0.95  1.15  1.36  1.56  1.76
    three    1.0 -0.15   NaN -0.15 -0.15 -0.15 -0.15 -0.15
    two      2.0  1.42  0.63  0.98  1.20  1.42  1.65  1.87

Aby uzyskać konkretne statystyki, po prostu wybierz je,

df.groupby(['A', 'B'])['C'].describe()[['count', 'mean']]

           count      mean
A   B                     
bar one      1.0  0.400157
    three    1.0  2.240893
    two      1.0 -0.977278
foo one      2.0  1.357070
    three    1.0 -0.151357
    two      2.0  1.423148

describe działa dla wielu kolumn (Zmień ['C'] na ['C', 'D'] - lub usuń go całkowicie - i zobacz, co się stanie, rezultatem jest multiindexed kolumned dataframe).

Otrzymujesz również różne statystyki dla danych ciągów. Oto przykład:

df2 = df.assign(D=list('aaabbccc')).sample(n=100, replace=True)

with pd.option_context('precision', 2):
    display(df2.groupby(['A', 'B'])
               .describe(include='all')
               .dropna(how='all', axis=1))

              C                                                   D                
          count  mean       std   min   25%   50%   75%   max count unique top freq
A   B                                                                              
bar one    14.0  0.40  5.76e-17  0.40  0.40  0.40  0.40  0.40    14      1   a   14
    three  14.0  2.24  4.61e-16  2.24  2.24  2.24  2.24  2.24    14      1   b   14
    two     9.0 -0.98  0.00e+00 -0.98 -0.98 -0.98 -0.98 -0.98     9      1   c    9
foo one    22.0  1.43  4.10e-01  0.95  0.95  1.76  1.76  1.76    22      2   a   13
    three  15.0 -0.15  0.00e+00 -0.15 -0.15 -0.15 -0.15 -0.15    15      1   c   15
    two    26.0  1.49  4.48e-01  0.98  0.98  1.87  1.87  1.87    26      2   b   15

Aby uzyskać więcej informacji, zobacz dokumentacja .

Pandy >= 1.1: `DataFrame.value_counts`

To jest dostępne z pandas 1.1 Jeśli chcesz tylko uchwycić rozmiar każdej grupy, to tnie GroupBy i jest szybsze.

df.value_counts(subset=['col1', 'col2'])

Minimalny Przykład

# Setup
np.random.seed(0)
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})

df.value_counts(['A', 'B']) 

A    B    
foo  two      2
     one      2
     three    1
bar  two      1
     three    1
     one      1
dtype: int64

Inne Narzędzia Analizy Statystycznej

Jeśli nie znalazłeś tego, czego szukałeś powyżej, Podręcznik Użytkownika zawiera wyczerpującą listę obsługiwanych analiz statycznych, narzędzia korelacji i regresji.

67

Author: cs95,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2020-07-09 06:00:06

Możemy to łatwo zrobić za pomocą groupby I count. Należy jednak pamiętać, aby użyć reset_index ().

df[['col1','col2','col3','col4']].groupby(['col1','col2']).count().\
reset_index()

8

Author: Nimesh,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2017-11-27 18:17:07

Aby uzyskać wiele statystyk, zwiń indeks i zachowaj nazwy kolumn:

df = df.groupby(['col1','col2']).agg(['mean', 'count'])
df.columns = [ ' '.join(str(i) for i in col) for col in df.columns]
df.reset_index(inplace=True)
df

Produkuje:

5

Author: Jake Drew,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2019-11-13 01:31:03

Proszę wypróbować ten kod

new_column=df[['col1', 'col2', 'col3', 'col4']].groupby(['col1', 'col2']).count()
df['count_it']=new_column
df

Myślę, że kod doda kolumnę o nazwie "count it", która liczy każdą grupę

3

Author: Ichsan,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2020-02-08 01:34:26

Utwórz obiekt group i wywołaj metody jak w poniższym przykładzie:

grp = df.groupby(['col1',  'col2',  'col3']) 

grp.max() 
grp.mean() 
grp.describe()

2

Author: Mahendra,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2019-04-11 14:05:06

score 510 · Accepted Answer

W obiekcie groupby Funkcja agg może pobierać listę, aby zastosować kilka metod agregacji jednocześnie. To powinno dać ci wynik, którego potrzebujesz:

df[['col1', 'col2', 'col3', 'col4']].groupby(['col1', 'col2']).agg(['mean', 'count'])

510

Author: Boud,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/doraprojects.net/template/agent.layouts/content.php on line 54
2019-07-29 03:28:41

Uzyskaj statystyki dla każdej grupy (takie jak count, mean, etc) za pomocą pandas GroupBy?

7 answers

Szybka Odpowiedź:

Szczegółowy przykład:

W Tym wyniki dla większej liczby statystyk

Przypisy

Szwajcarski Nóż Wojskowy: GroupBy.describe

Pandy >= 1.1: DataFrame.value_counts

Inne Narzędzia Analizy Statystycznej

Szwajcarski Nóż Wojskowy: `GroupBy.describe`

Pandy >= 1.1: `DataFrame.value_counts`