Deskriptive Statistik

pandas-Objekte sind mit einer Reihe von gängigen mathematischen und statistischen Methoden ausgestattet. Die meisten von ihnen fallen in die Kategorie der Reduktionen oder zusammenfassenden Statistiken, Methoden, die einen einzelnen Wert (wie die Summe oder den Mittelwert) aus einer Serie oder einer Reihe von Werten aus den Zeilen oder Spalten eines DataFrame extrahieren. Im Vergleich zu ähnlichen Methoden, die sich bei NumPy-Arrays finden, behandeln sie auch fehlende Daten.

[1]:
import numpy as np
import pandas as pd


df = pd.DataFrame(
    np.random.randn(7, 3), index=pd.date_range("2022-02-02", periods=7)
)
new_index = pd.date_range("2022-02-03", periods=7)
df2 = df.reindex(new_index)

df2
[1]:
0 1 2
2022-02-03 -0.372507 -0.492456 0.638300
2022-02-04 0.058264 -0.448172 -1.606488
2022-02-05 2.688337 -0.028380 -1.509025
2022-02-06 0.572407 -0.989473 -1.393276
2022-02-07 0.102434 -0.392595 0.564648
2022-02-08 1.032476 -1.426832 -1.286199
2022-02-09 NaN NaN NaN

Der Aufruf der pandas.DataFrame.sum-Methode gibt eine Serie zurück, die Spaltensummen enthält:

[2]:
df2.sum()
[2]:
0    4.081410
1   -3.777909
2   -4.592040
dtype: float64

Die Übergabe von axis='columns' oder axis=1 summiert stattdessen über die Spalten:

[3]:
df2.sum(axis="columns")
[3]:
2022-02-03   -0.226663
2022-02-04   -1.996397
2022-02-05    1.150931
2022-02-06   -1.810343
2022-02-07    0.274487
2022-02-08   -1.680555
2022-02-09    0.000000
Freq: D, dtype: float64

Wenn eine ganze Zeile oder Spalte alle NA-Werte enthält, ist die Summe 0. Dies kann mit der Option skipna deaktiviert werden:

[4]:
df2.sum(axis="columns", skipna=False)
[4]:
2022-02-03   -0.226663
2022-02-04   -1.996397
2022-02-05    1.150931
2022-02-06   -1.810343
2022-02-07    0.274487
2022-02-08   -1.680555
2022-02-09         NaN
Freq: D, dtype: float64

Einige Aggregationen, wie z.B. mean, erfordern mindestens einen Nicht-NaN-Wert, um ein wertvolles Ergebnis zu erhalten:

[5]:
df2.mean(axis="columns")
[5]:
2022-02-03   -0.075554
2022-02-04   -0.665466
2022-02-05    0.383644
2022-02-06   -0.603448
2022-02-07    0.091496
2022-02-08   -0.560185
2022-02-09         NaN
Freq: D, dtype: float64

Optionen für Reduktionsmethoden

Methode

Beschreibung

axis

die Achse der zu reduzierenden Werte: 0 für die Zeilen des DataFrame und 1 für die Spalten

skipna

fehlende Werte ausschließen; standardmäßig True

level

nach Ebene gruppiert reduzieren, wenn die Achse hierarchisch indiziert ist (MultiIndex)

Einige Methoden, wie idxmin und idxmax, liefern indirekte Statistiken wie den Indexwert, bei dem der Mindest- oder Höchstwert erreicht wird:

[6]:
df2.idxmax()
[6]:
0   2022-02-05
1   2022-02-05
2   2022-02-03
dtype: datetime64[ns]

Andere Methoden sind Akkumulationen:

[7]:
df2.cumsum()
[7]:
0 1 2
2022-02-03 -0.372507 -0.492456 0.638300
2022-02-04 -0.314243 -0.940629 -0.968188
2022-02-05 2.374094 -0.969009 -2.477213
2022-02-06 2.946500 -1.958482 -3.870489
2022-02-07 3.048934 -2.351077 -3.305841
2022-02-08 4.081410 -3.777909 -4.592040
2022-02-09 NaN NaN NaN

Eine andere Art von Methoden sind weder Reduktionen noch Akkumulationen. describe ist ein solches Beispiel, das mehrere zusammenfassende Statistiken auf einen Schlag erstellt:

[8]:
df2.describe()
[8]:
0 1 2
count 6.000000 6.000000 6.000000
mean 0.680235 -0.629652 -0.765340
std 1.095184 0.496880 1.064450
min -0.372507 -1.426832 -1.606488
25% 0.069306 -0.865219 -1.480088
50% 0.337420 -0.470314 -1.339738
75% 0.917459 -0.406489 0.101936
max 2.688337 -0.028380 0.638300

Bei nicht-numerischen Daten erzeugt describe alternative zusammenfassende Statistiken:

[9]:
data = {
    "Code": ["U+0000", "U+0001", "U+0002", "U+0003", "U+0004", "U+0005"],
    "Octal": ["001", "002", "003", "004", "004", "005"],
}
df3 = pd.DataFrame(data)

df3.describe()
[9]:
Code Octal
count 6 6
unique 6 5
top U+0000 004
freq 1 2

Deskriptive und zusammenfassende Statistiken:

Methode

Beschreibung

count

Anzahl der Nicht-NA-Werte

describe

Berechnung einer Reihe von zusammenfassenden Statistiken für Serien oder jede DataFrame-Spalte

min, max

Berechnung der Mindest- und Höchstwerte

argmin, argmax

Berechnung der Indexstellen (ganze Zahlen), an denen der Mindest- bzw. Höchstwert erreicht wurde

idxmin, idxmax

Berechnung der Indexbeschriftungen, an denen der Mindest- bzw. Höchstwert erreicht wurde

quantile

Berechnung des Stichprobenquantils im Bereich von 0 bis 1

sum

Summe der Werte

mean

Arithmetisches Mittel der Werte

median

Arithmetischer Median (50%-Quantil) der Werte

mad

Mittlere absolute Abweichung vom Mittelwert

prod

Produkt aller Werte

var

Stichprobenvarianz der Werte

std

Stichprobenstandardabweichung der Werte

skew

Stichprobenschiefe (drittes Moment) der Werte

kurt

Stichprobenwölbung (viertes Moment) der Werte

cumsum

Kumulierte Summe der Werte

cummin, cummax

Kumuliertes Minimum bzw. Maximum der Werte

cumprod

Kumuliertes Produkt der Werte

diff

Berechnung der ersten arithmetischen Differenz (nützlich für Zeitreihen)

pct_change

Berechnung der prozentualen Veränderungen

ydata_profiling

ydata-profiling erzeugt Profilberichte aus einem pandas DataFrame. Die Funktion pandas df.describe() ist praktisch, aber ein wenig einfach für die explorative Datenanalyse. ydata-profiling erweitert pandas DataFrame mit df.profile_report(), die automatisch einen standardisierten Bericht zum Verständnis der Daten erzeugt.

Installation

$ uv add ydata_profiling[notebook]
…
…
$ uv run --with jupyter jupyter nbextension enable --py widgetsnbextension

Beispiel

[10]:
from ydata_profiling import ProfileReport


profile = ProfileReport(df2, title="Pandas Profiling Report")

profile.to_widgets()

Konfiguration für große Datensätze

Standardmäßig fasst ydata-profiling den Datensatz so zusammen, dass er die meisten Erkenntnisse für die Datenanalyse liefert. Wenn die Berechnungszeit der Profilerstellung zu einem Engpass wird, bietet ydata-profiling mehrere Alternativen, um diesen zu überwinden. Für die folgenden Beispiele lesen wir zunächst einen größeren Datensatz in pandas ein:

[11]:
titanic = pd.read_csv(
    "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
)

1. Minimaler Modus

ydata-profiling enthält eine minimale Konfigurationsdatei config_minimal.yaml, in der die teuersten Berechnungen standardmäßig ausgeschaltet sind. Dies ist die empfohlene Ausgangsbasis für größere Datensätze.

[12]:
profile = ProfileReport(
    titanic, title="Minimal Pandas Profiling Report", minimal=True
)

profile.to_widgets()

Weitere Details zu Einstellungen und Konfiguration findet ihr unter Available settings.

2. Stichprobe

Eine alternative Möglichkeit bei sehr großen Datensätzen besteht darin, nur einen Teil davon für die Erstellung des Profiling-Berichts zu verwenden:

[13]:
sample = titanic.sample(frac=0.05)
profile = ProfileReport(sample, title="Sample Pandas Profiling Report")

profile.to_widgets()

3. Teure Berechnungen deaktivieren

Um den Rechenaufwand in großen Datensätzen zu verringern, aber dennoch einige interessante Informationen zu erhalten, können einige Berechnungen nur für bestimmte Spalten gefiltert werden:

[14]:
profile = ProfileReport()
profile.config.interactions.targets = ["Sex", "Age"]
profile.df = titanic

profile.to_widgets()

Die Einstellung interactions.targets, kann sowohl über Konfigurationsdateien wie auch über Umgebungsvariablen geändert werden; Einzelheiten hierzu findet ihr unter Changing settings.

4. Nebenläufigkeit

Aktuell wird an einem skalierbaren Spark-Backend für ydata-profiling gearbeitet, siehe Spark Profiling Development.