Featured image of post Pandas Column Renaming leicht gemacht: Methoden und Best Practices

Pandas Column Renaming leicht gemacht: Methoden und Best Practices

Entdecken Sie diesen Leitfaden, um zu verstehen, wie man Spalten in Pandas umbenennt. Außerdem, überprüfen Sie die besten Praktiken und Konventionen für die Benennung Spalten.

Dieser Artikel ist ein Leitfaden zur Umbenennung von Spalten in Pandas.

Pandas ist eine Python-Bibliothek zum Umgang mit Datensätzen. Es liest leicht Daten aus verschiedenen Dateiformaten wie CSV , JSON und SQL. Wenn Daten in Pandas geladen werden, wird diese in einem DataFrame-Objekt gespeichert.

Ein DataFrame ist ein zweidimensionales Objekt, d.h. Daten werden in einem tabellenartigen Format mit Zeilen und Spalten gespeichert. Dies ist ähnlich wie die Speicherung von Daten in CSV- oder Tabellenkalkulationsdateien. Wenn Sie Daten laden, wird pandas versuchen, Spaltennamen aus der Datensatz-Quellendatei zu laden.

columns

Die geladenen Spaltennamen können jedoch nicht ideal sein, und Sie möchten die Spalten möglicherweise auf etwas sinnvoller umbenennen.

In diesem Artikel werden wir zunächst die besten Praktiken zur Benennung von Spalten in Pandas diskutieren. Danach kommen wir zum Hauptthema, das sind die Methoden, um sie umzubenennen.

Best Practices für Naming Columns in Pandas

Bevor wir zum Umbenennungsführer Teil dieses Artikels kommen, sind hier einige Best Practices und Konventionen, die Sie bei der Benennung Ihrer Spalten in Pandas verfolgen möchten.

✅ Verwenden Sie beschreibende Namen. kryptische Namen wie col_1 sind schwer zu verstehen und nicht viele Informationen über die im Datensatz enthaltenen Daten zu übermitteln.

✅ Verwenden Sie Schlangenfall beim Namen Spalten. Im Schlangenfall werden Ihre Spaltennamen so aussehen: number_of_people Anstatt das zu mögen NumberOfPeople .

✅ Während der Schlangenfall bevorzugt ist, sollten Sie die Namenskonvention verwenden, die Ihr Originaldatensatz verwendet. Dies vermeidet Verwirrung beim Wechsel zwischen Ihrem Datensatz und dem DataFrame-Objekt von Pandas.

✅ Welche Namenskonvention Sie verwenden, bleiben während des gesamten Datensatzes konsistent. Vermeiden Sie, einige Spalten mit PascalCase und anderen mit snake_case zu benennen.

Letztendlich versuchen, kürzere Namen zu verwenden. Diese sind einfacher zu tippen, da der Codevorschlag und die Fertigstellung in Notebooks in der Regel subpar sind. Dies bedeutet, dass die Kodierung in einem Notebook viele manuelle Eingabe von Code erfordert, und kürzere Namen machen das Leben einfacher.

Umbenennen von Säulen in Pandas

Sie können den Inhalt dieses Artikels auf zwei Arten konsumieren. Zuerst könnten Sie das als Referenz durchlesen. Zweitens, Sie könnten folgen, Kodierung Sie haben also eine bessere Chance, sich an die diskutierten Konzepte zu erinnern. Ich empfehle die letztgenannte Methode.

Um zusammen zu codieren, werde ich ein Notebook verwenden, das mit Google Colab gehostet wird. Sie können auch eine erstellen und folgen; es ist völlig kostenlos. Das Notebook mit dem ganzen Code, den ich in diesem Tutorial schreiben werde, ist verfügbar hier .

Einrichten des Notebooks

Bevor wir die Umbenennung von Spalten in pandas beginnen, lassen Sie uns das Notebook einrichten und einige Musterdaten laden. Erstellen Sie eine Codezelle und importieren Sie Pandas mit dem folgenden Code.

1
import pandas as pd

Nach dem Import von Pandas können Sie die california_housing_data Datensatz, der standardmäßig als Beispieldatensatz zur Verfügung steht, wenn Sie ein Google Colab Notebook erstellen.

1
housing_data = pd.read_csv('/content/sample_data/california_housing_train.csv')

Die ersten Zeilen des Datensatzes können Sie mit dem Code sehen:

1
housing_data.head()

Sie können die im Datensatz enthaltenen Spalten auch mit folgenden Spalten auflisten:

1
housing_data.columns

Dies sollte folgende Leistung erzeugen:

1
Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',       'total_bedrooms', 'population', 'households', 'median_income',       'median_house_value'],      dtype='object')

Das bedeutet, dass Ihre Daten korrekt geladen wurden und der DataFrame hat, was wir brauchen.

Methode 1: Verwendung der Rename-Funktion

Der einfachste Weg, um Spalten in Pandas umzubenennen ist, die rename Verfahren des DataFrame-Objekts. Mit dieser Methode, Sie rename eine Spalte, indem die Umbenennungsmethode aufgerufen wird. Die Methode nimmt mehrere Argumente an.

In diesem Fall interessieren wir uns für die Umbenennung einer Spalte, so dass wir in den Spalten Keyword Argument übergeben. Der Wert dieses Arguments ist ein Wörterbuch, dessen Einträge das Mapping aus den alten Spaltennamen zu den neuen darstellen. Hier ist ein Beispiel, wo wir die households Spalte zu houses .

1
housing_data.rename(columns={ 'households': 'houses' })

Dies sollte folgende Leistung erzeugen:

Housing data after renaming pandas dataframe column

Wie Sie sehen können, passieren wir in einem Wörterbuch, wo der Schlüssel der alte Spaltenname ist, und der Wert ist der neue Spaltenname. Der Wert muss nicht nur ein String sein. Es kann auch eine Funktion sein, in der der von der Funktion zurückgegebene Wert der neue Spaltenname ist. Wenn Sie mehr Spalten umbenennen möchten, können Sie weitere Einträge zum Wörterbuch hinzufügen.

Methode 2: Wiederholen der Spalte String

Eine weitere Methode, die Sie für die Umbenennung von Spalten in Pandas verwenden können, ist das Ersetzen der Spaltenfolge auf einem DataFrame. Angenommen, Sie wollten die Spalte umbenennen population bis number_of_people . Mit dieser Methode würden Sie den folgenden Code schreiben:

1
housing_data.columns = housing_data.columns.str.replace('population', 'number_of_people')

Um die geänderte Liste auszudrucken, verwenden wir den folgenden Code:

1
housing_data

Dies sollte die folgende Ausgabe auf den Bildschirm erzeugen:

Screenshot-from-2023-04-04-07-35-06

Methode 3: Zuordnung einer Liste von Spaltennamen

Alternativ können Sie Spalten in Pandas umbenennen, indem Sie der Spalten-Eigenschaft des DataFrame eine Liste zuordnen. Für dieses Beispiel, wenn ich alle Spalten umbenennen wollte, damit sie alle Zahlen verwenden, könnte ich den folgenden Code verwenden:

1
housing_data.columns = [x for x in range(9)]

In diesem Beispiel habe ich die housing_data.columns Attribut auf eine Liste von Zahlen von 0 bis 8. Um die Liste zu generieren, habe ich das Listenverständnis verwendet, das eine native Python-Funktion ist, um bequem Listen von Werten mit einer for Loop.

Der Nachteil dieser Methode ist, dass Sie den gesamten Spaltennamen umbenennen müssen; Sie können nicht einfach eine Untergruppe von Spalten umbenennen. Idealerweise sollten Ihre Spaltennamen etwas beschreibender sein, aber ich benutze hier nur Zahlen als Demonstration.

Sie können die Ausgabe anzeigen, indem Sie Folgendes schreiben:

1
housing_data

Screenshot-from-2023-04-04-05-58-41

Methode 4: Verwendung der set_axis() Funktion zum Umbenennen von Spalten in Pandas

Die Methode, die wir diskutieren, ist die set_axis Methode des DataFrame-Objekts. Mit diesem Verfahren wird eine Werteliste als Achswerte für eine der beiden Achsen in Pandas eingestellt. Da wir Säulen umbenennen, setzen wir axis 1 . Zur Verwendung dieser Methode verwenden wir den folgenden Code:

1
column_names = [str(x) for x in range(8, -1, -1)]housing_data.set_axis(column_names, axis=1, inplace=True)

Die erste Zeile erzeugt eine Liste von Werten von 8 bis 0 in absteigender Reihenfolge und speichert sie in der column_names variabel. In der zweiten Zeile nennen wir die set_axis-Methode, die die column_names als Argument- und Einstellachse als Achse 1 zu ändern. Wir setzen auch inplace bis True so ändert es den ursprünglichen DataFrame.

Wir können den DataFrame durch Schreiben ansehen:

1
housing_data

Dies sollte folgendes bewirken:

Screenshot-from-2023-04-04-06-47-20

Schlussworte

Dieser Artikel stellte kurz vor, wie Daten im tabellarischen Format in pandas gespeichert werden. Wir diskutierten auch die besten Praktiken zur Benennung von Spalten in Pandas, um unser Leben zu erleichtern.

Schließlich und vor allem diskutierten wir auch die verschiedenen Methoden der Umbenennung von Spalten in Pandas.

Nächster, check out wie man einen Pandas DataFrame erstellt [mit Beispielen] .