Hinzufügen, Ändern und Löschen von Daten¶

Bei vielen Datensätzen möchtet ihr vielleicht eine Transformation basierend auf den Werten in einem Array, einer Serie oder einer Spalte in einem DataFrame durchführen. Hierfür betrachten wir die ersten Unicode-Zeichen:

[1]:

import numpy as np
import pandas as pd

[2]:

df = pd.DataFrame(
    {
        "Code": ["U+0000", "U+0001", "U+0002", "U+0003", "U+0004", "U+0005"],
        "Decimal": [0, 1, 2, 3, 4, 5],
        "Octal": ["001", "002", "003", "004", "004", "005"],
        "Key": ["NUL", "Ctrl-A", "Ctrl-B", "Ctrl-C", "Ctrl-D", "Ctrl-E"],
    }
)

df

[2]:

	Code	Decimal	Octal	Key
0	U+0000	0	001	NUL
1	U+0001	1	002	Ctrl-A
2	U+0002	2	003	Ctrl-B
3	U+0003	3	004	Ctrl-C
4	U+0004	4	004	Ctrl-D
5	U+0005	5	005	Ctrl-E

Daten hinzufügen¶

Angenommen, ihr möchtet eine Spalte hinzufügen, in der die Zeichen dem C0- oder C1-Steuercode zugewiesen werden:

[3]:

control_code = {
    "u+0000": "C0",
    "u+0001": "C0",
    "u+0002": "C0",
    "u+0003": "C0",
    "u+0004": "C0",
    "u+0005": "C0",
}

Die map-Methode für eine Serie akzeptiert eine Funktion oder ein diktatähnliches Objekt, das eine Zuordnung enthält, aber hier haben wir ein kleines Problem, da einige die Codes in control_code kleingeschrieben sind, nicht jedoch in unserem DataFrame. Daher müssen wir jeden Wert mit der Methode str.lower in Kleinbuchstaben umwandeln:

[4]:

lowercased = df["Code"].str.lower()

lowercased

[4]:

0    u+0000
1    u+0001
2    u+0002
3    u+0003
4    u+0004
5    u+0005
Name: Code, dtype: object

[5]:

df["Control code"] = lowercased.map(control_code)

df

[5]:

	Code	Decimal	Octal	Key	Control code
0	U+0000	0	001	NUL	C0
1	U+0001	1	002	Ctrl-A	C0
2	U+0002	2	003	Ctrl-B	C0
3	U+0003	3	004	Ctrl-C	C0
4	U+0004	4	004	Ctrl-D	C0
5	U+0005	5	005	Ctrl-E	C0

Wir hätten auch eine Funktion übergeben können, die die ganze Arbeit erledigt:

[6]:

df["Code"].map(lambda x: control_code[x.lower()])

[6]:

0    C0
1    C0
2    C0
3    C0
4    C0
5    C0
Name: Code, dtype: object

Die Verwendung von map ist ein bequemer Weg, um elementweise Transformationen und andere Datenbereinigungsoperationen durchzuführen.

Daten ändern¶

Mit der Methode replace lassen sich bestimmte Werte durch andere ersetzen.

[7]:

s = pd.Series(["Manpower", "man-made", np.nan])

[8]:

s.replace("Man", "Personal")

[8]:

0    Manpower
1    man-made
2         NaN
dtype: object

[9]:

s.replace("[Mm]an", "Personal", regex=True)

[9]:

0    Personalpower
1    Personal-made
2              NaN
dtype: object

[10]:

s.replace(["[Mm]an", np.nan], ["Personal", 0], regex=True)

[10]:

0    Personalpower
1    Personal-made
2                0
dtype: object

[11]:

s.replace(["[Mm]an", np.nan], ["Personal", len(s)], regex=True)

[11]:

0    Personalpower
1    Personal-made
2                3
dtype: object

Siehe auch:

Verwalten fehlender Daten mit pandas

Daten löschen¶

Einen oder mehrere Einträge aus einer Achse zu löschen ist einfach, wenn ihr bereits ein Index-Array oder eine Liste ohne diese Einträge habt.

Da dies ein wenig Mengenlehre erfordern kann, geben wir die Drop-Methode als neues Objekt ohne den oder die gelöschten Werten zurück:

[12]:

rng = np.random.default_rng()
s = pd.Series(rng.random(7))

s

[12]:

0    0.860992
1    0.707652
2    0.142427
3    0.415625
4    0.273265
5    0.453049
6    0.550913
dtype: float64

[13]:

s.drop(2)

[13]:

0    0.860992
1    0.707652
3    0.415625
4    0.273265
5    0.453049
6    0.550913
dtype: float64

[14]:

s.drop([2, 3])

[14]:

0    0.860992
1    0.707652
4    0.273265
5    0.453049
6    0.550913
dtype: float64

Bei DataFrames können Indexwerte auf beiden Achsen gelöscht werden. Um dies zu veranschaulichen, erstellen wir zunächst einen Beispiel-DataFrame:

[15]:

data = {
    "Code": ["U+0000", "U+0001", "U+0002", "U+0003", "U+0004", "U+0005"],
    "Decimal": [0, 1, 2, 3, 4, 5],
    "Octal": ["001", "002", "003", "004", "004", "005"],
    "Key": ["NUL", "Ctrl-A", "Ctrl-B", "Ctrl-C", "Ctrl-D", "Ctrl-E"],
}

df = pd.DataFrame(data)

df

[15]:

	Code	Decimal	Octal	Key
0	U+0000	0	001	NUL
1	U+0001	1	002	Ctrl-A
2	U+0002	2	003	Ctrl-B
3	U+0003	3	004	Ctrl-C
4	U+0004	4	004	Ctrl-D
5	U+0005	5	005	Ctrl-E

[16]:

df.drop([0, 1])

[16]:

	Code	Decimal	Octal	Key
2	U+0002	2	003	Ctrl-B
3	U+0003	3	004	Ctrl-C
4	U+0004	4	004	Ctrl-D
5	U+0005	5	005	Ctrl-E

Ihr könnt auch Werte aus den Spalten entfernen, indem ihr axis=1 oder axis="columns" übergebt:

[17]:

df.drop("Decimal", axis=1)

[17]:

	Code	Octal	Key
0	U+0000	001	NUL
1	U+0001	002	Ctrl-A
2	U+0002	003	Ctrl-B
3	U+0003	004	Ctrl-C
4	U+0004	004	Ctrl-D
5	U+0005	005	Ctrl-E

Viele Funktionen wie drop, die die Größe oder Form einer Reihe oder eines DataFrame ändern, können ein Objekt an Ort und Stelle manipulieren, ohne ein neues Objekt zurückzugeben:

[18]:

df.drop(0, inplace=True)

df

[18]:

	Code	Decimal	Octal	Key
1	U+0001	1	002	Ctrl-A
2	U+0002	2	003	Ctrl-B
3	U+0003	3	004	Ctrl-C
4	U+0004	4	004	Ctrl-D
5	U+0005	5	005	Ctrl-E

Warnung:

Seid vorsichtig mit der inplace-Funktion, da die Daten unwiderbringlich gelöscht werden.

Siehe auch:

Daten deduplizieren