Unterteilen und Kategorisieren von Daten¶

Kontinuierliche Daten werden häufig in Bereiche unterteilt oder auf andere Weise für die Analyse gruppiert.

Angenommen, ihr habt Daten über eine Gruppe von Personen in einer Studie, die ihr in diskrete Altersgruppen einteilen möchtet. Hierfür generieren wir uns einen Dataframe mit 250 Einträgen zwischen 0 und 99:

[1]:

import numpy as np
import pandas as pd


rng = np.random.default_rng()
ages = rng.integers(0, 99, 250)
df = pd.DataFrame({"Age": ages})

df

[1]:

	Age
0	23
1	60
2	8
3	34
4	36
...	...
245	41
246	66
247	84
248	78
249	33

250 rows × 1 columns

Anschließend bietet uns pandas mit pandas.cut eine einfache Möglichkeit, die Ergebnisse in zehn Bereiche aufzuteilen. Um nur ganze Jahre zu erhalten, setzen wir zusätzlich precision=0:

[2]:

cats = pd.cut(ages, 10, precision=0)

cats

[2]:

[(20.0, 29.0], (59.0, 69.0], (-0.1, 10.0], (29.0, 39.0], (29.0, 39.0], ..., (39.0, 49.0], (59.0, 69.0], (78.0, 88.0], (69.0, 78.0], (29.0, 39.0]]
Length: 250
Categories (10, interval[float64, right]): [(-0.1, 10.0] < (10.0, 20.0] < (20.0, 29.0] < (29.0, 39.0] ... (59.0, 69.0] < (69.0, 78.0] < (78.0, 88.0] < (88.0, 98.0]]

Mit pandas.Categorical.categories könnt ihr euch die Kategorien anzeigen lassen:

[3]:

cats.categories

[3]:

IntervalIndex([(-0.1, 10.0], (10.0, 20.0], (20.0, 29.0], (29.0, 39.0],
               (39.0, 49.0], (49.0, 59.0], (59.0, 69.0], (69.0, 78.0],
               (78.0, 88.0], (88.0, 98.0]],
              dtype='interval[float64, right]')

…oder auch nur eine einzelne Kategorie:

[4]:

cats.categories[0]

[4]:

Interval(-0.1, 10.0, closed='right')

Mit pandas.Categorical.codes könnt ihr euch ein Array anzeigen lassen, in dem für jeden Wert die zugehörige Kategorie angezeigt wird:

[5]:

cats.codes

[5]:

array([2, 6, 0, 3, 3, 2, 5, 6, 2, 3, 6, 9, 2, 0, 8, 1, 9, 6, 7, 2, 2, 2,
       5, 7, 2, 8, 9, 0, 2, 1, 7, 6, 8, 0, 0, 8, 0, 0, 6, 0, 7, 5, 3, 9,
       7, 7, 9, 6, 0, 9, 4, 7, 7, 9, 2, 1, 5, 2, 4, 2, 1, 0, 2, 8, 8, 4,
       9, 3, 6, 8, 7, 0, 3, 0, 0, 3, 1, 1, 9, 0, 5, 4, 4, 3, 6, 6, 2, 7,
       2, 7, 3, 6, 2, 5, 7, 1, 5, 9, 1, 5, 7, 3, 5, 6, 7, 9, 9, 8, 3, 1,
       8, 4, 5, 7, 7, 0, 6, 0, 9, 4, 1, 6, 2, 8, 2, 3, 2, 6, 8, 6, 9, 9,
       9, 5, 6, 5, 1, 7, 7, 5, 9, 0, 3, 1, 6, 0, 0, 6, 8, 1, 5, 3, 9, 4,
       8, 9, 0, 0, 7, 1, 9, 1, 1, 3, 0, 7, 6, 4, 1, 2, 3, 9, 4, 5, 4, 8,
       9, 2, 5, 6, 0, 6, 7, 2, 6, 3, 9, 3, 1, 1, 9, 3, 1, 6, 9, 6, 0, 9,
       1, 8, 0, 6, 8, 8, 9, 9, 4, 7, 4, 7, 3, 4, 1, 2, 4, 2, 8, 8, 6, 9,
       7, 0, 5, 6, 1, 4, 3, 8, 1, 5, 9, 2, 7, 0, 0, 4, 2, 0, 8, 0, 3, 0,
       3, 4, 9, 4, 6, 8, 7, 3], dtype=int8)

Mit value_counts können wir uns nun anschauen, wie sich die Anzahl auf die einzelnen Bereiche verteilt:

[6]:

pd.Series(cats).value_counts()

[6]:

(-0.1, 10.0]    31
(88.0, 98.0]    31
(59.0, 69.0]    29
(20.0, 29.0]    26
(69.0, 78.0]    26
(10.0, 20.0]    24
(29.0, 39.0]    24
(78.0, 88.0]    22
(39.0, 49.0]    19
(49.0, 59.0]    18
Name: count, dtype: int64

Auffalend ist, dass die Altersbereiche nicht gleich viele Jahre enthalten, sondern mit 20.0, 29.0 und 69.0, 78.0 zwei Bereiche nur 9 Jahre umfassen. Dies hängt damit zusammen, dass der Altersumfang nur von 0bis 98 reicht:

[7]:

df.min()

[7]:

Age    0
dtype: int64

[8]:

df.max()

[8]:

Age    98
dtype: int64

Mit pandas.qcut wird die Menge hingegen in Bereiche unterteilt, die annähernd gleich groß sind:

[9]:

cats = pd.qcut(ages, 10, precision=0)

[10]:

pd.Series(cats).value_counts()

[10]:

(-1.0, 8.0]     30
(38.0, 50.0]    28
(81.0, 91.0]    27
(17.0, 26.0]    26
(26.0, 38.0]    26
(60.0, 70.0]    26
(70.0, 81.0]    24
(91.0, 98.0]    23
(8.0, 17.0]     20
(50.0, 60.0]    20
Name: count, dtype: int64

Wollen wir gewährleisten, dass jede Altersgruppe tatsächlich genau zehn Jahre umfasst, können wir dies mit pandas.Categorical direkt angeben:

[11]:

age_groups = [f"{i} - {i + 9}" for i in range(0, 109, 10)]
cats = pd.Categorical(age_groups)

cats.categories

[11]:

Index(['0 - 9', '10 - 19', '100 - 109', '20 - 29', '30 - 39', '40 - 49',
       '50 - 59', '60 - 69', '70 - 79', '80 - 89', '90 - 99'],
      dtype='object')

Für die Gruppierung wird nun pandas.cut verwendet:

[12]:

df["Age group"] = pd.cut(df.Age, range(0, 111, 10), right=False, labels=cats)

df

[12]:

	Age	Age group
0	23	20 - 29
1	60	60 - 69
2	8	0 - 9
3	34	30 - 39
4	36	30 - 39
...	...	...
245	41	40 - 49
246	66	60 - 69
247	84	80 - 89
248	78	70 - 79
249	33	30 - 39

250 rows × 2 columns