So funktioniert die EDA in Python mit Pandas und Matplotlib

Exploratory Data Analysis (EDA) ist ein entscheidender Schritt in jedem Data-Science-Projekt, da es uns ermöglicht, die Daten zu verstehen, Muster zu erkennen und potenzielle Probleme zu identifizieren. In diesem Artikel werden wir untersuchen, wie man mit zwei beliebten Python-Bibliotheken, Pandas und Matplotlib, EDA durchführt. Pandas ist eine leistungsfähige Bibliothek zur Datenmanipulation und -analyse, während Matplotlib eine vielseitige Bibliothek zur Datenvisualisierung ist. Wir werden die Grundlagen der Datenaufnahme in eine pandas DataFrame behandeln, die Daten mithilfe von pandas-Funktionen erkunden, die Daten reinigen und schließlich die Daten mithilfe von Matplotlib visualisieren. Am Ende dieses Artikels werdet ihr ein solides Verständnis dafür haben, wie man Pandas und Matplotlib zur Durchführung von EDA in Python verwendet.

Importieren von Bibliotheken und Daten

Importieren von Bibliotheken

Um die pandas- und Matplotlib-Bibliotheken in eurem Python-Code zu verwenden, müsst ihr sie zuerst importieren. Das könnt ihr mit der import-Anweisung gefolgt vom Namen der Bibliothek tun.

Python

 

python import pandas as pd
import matplotlib.pyplot as plt

In diesem Beispiel importieren wir pandas und geben ihm den Alias ‚pd‘, was eine übliche Konvention in der Data-Science-Community ist. Wir importieren auch matplotlib.pyplot und geben ihm den Alias ‚plt‘. Durch das Importieren dieser Bibliotheken können wir ihre Funktionen und Methoden zur Arbeit mit Daten und zur Erstellung von Visualisierungen nutzen.

Daten laden

Sobald du die notwendigen Bibliotheken importiert hast, kannst du die Daten in ein pandas DataFrame laden. Pandas bietet verschiedene Methoden zum Laden von Daten aus verschiedenen Dateiformaten, einschließlich CSV, Excel, JSON und mehr. Die gebräuchlichste Methode ist read_csv, die Daten aus einer CSV-Datei liest und ein DataFrame zurückgibt.

Python

 

python# Load data into a pandas DataFrame
data = pd.read_csv('path/to/data.csv')

In diesem Beispiel laden wir Daten aus einer CSV-Datei, die sich unter ‚pfad/zu/daten.csv‘ befindet, und speichern sie in einer Variablen namens ‚data‘. Du kannst ‚pfad/zu/daten.csv‘ durch den tatsächlichen Pfad zu deiner Datendatei ersetzen.

Durch das Laden von Daten in ein pandas DataFrame können wir die Daten mithilfe von pandas‘ Funktionen und Methoden leicht manipulieren und analysieren. Das DataFrame ist eine zweidimensionales tabellenartiges Datenstruktur, die uns ermöglicht, mit Daten auf strukturierte und organisierte Weise zu arbeiten. Es bietet Funktionen zum Auswählen, Filtern, Gruppieren, Aggregieren und Visualisieren von Daten.

Datenerkundung

head() und tail()

Die Funktionen head() und tail() dienen zum Anzeigen der ersten bzw. letzten Zeilen der Daten. Standardmäßig zeigen diese Funktionen die ersten/letzten fünf Zeilen der Daten, aber du kannst eine andere Anzahl von Zeilen als Argument angeben.

Python

 

python# View the first 5 rows of the data
print(data.head()) 
# Anzeige der letzten 10 Zeilen der Daten
print(data.tail(10))

info()

Die Funktion info() liefert Informationen über das DataFrame, einschließlich der Anzahl der Zeilen und Spalten, den Datentypen jeder Spalte und der Anzahl der nicht leeren Werte. Diese Funktion ist hilfreich, um fehlende Werte zu identifizieren und die geeigneten Datentypen für jede Spalte festzulegen.

Python

 

python# Get information about the data
print(data.info())

describe()

Die Funktion describe() liefert Zusammenfassungsstatistiken für numerische Spalten im DataFrame, einschließlich der Anzahl, des Mittelwerts, der Standardabweichung, des Minimums, des Maximums und der Quartile. Diese Funktion ist hilfreich, um einen schnellen Überblick über die Verteilung der Daten zu erhalten.

Python

 

python# Get summary statistics for the data
print(data.describe())

value_counts()

Die Funktion value_counts() wird verwendet, um die Anzahl der Vorkommen jedes einzelnen Werts in einer Spalte zu zählen. Diese Funktion ist nützlich, um die Häufigkeit bestimmter Werte in den Daten zu identifizieren.

Python

 

python# Count the number of unique values in a column
print(data['column_name'].value_counts())

Dies sind nur einige Beispiele für Panda-Funktionen, die Sie zur Erkundung von Daten verwenden können. Es gibt viele andere Funktionen, die Sie je nach Ihren spezifischen Bedürfnissen bei der Datenerkundung verwenden können, wie zum Beispiel isnull(), um fehlende Werte zu überprüfen, groupby(), um Daten nach einer bestimmten Spalte zu gruppieren, corr(), um Korrelationskoeffizienten zwischen Spalten zu berechnen und mehr.

Datenbereinigung 

isnull()

Die Funktion isnull() wird verwendet, um nach fehlenden oder NULL-Werten im DataFrame zu suchen. Sie gibt ein DataFrame der gleichen Form wie das ursprüngliche zurück, mit True-Werten an Stellen, an denen die Daten fehlen, und False-Werten an Stellen, an denen die Daten vorhanden sind. Sie können die Funktion sum() verwenden, um die Anzahl der fehlenden Werte in jeder Spalte zu zählen.

Python

 

python# Check for missing values
print(data.isnull().sum())

dropna()

Die dropna()-Funktion wird verwendet, um Zeilen oder Spalten mit fehlenden oder NULL-Werten zu entfernen. Standardmäßig entfernt diese Funktion jede Zeile, die mindestens einen fehlenden Wert enthält. Sie können das subset-Argument verwenden, um anzugeben, welche Spalten auf fehlende Werte überprüft werden sollen, und das how-Argument, um festzulegen, ob Zeilen mit irgendwelchen fehlenden Werten oder nur Zeilen, in denen alle Werte fehlen, gelöscht werden sollen.

Python

 

python# Drop rows with missing values
data = data.dropna()

drop_duplicates()

Die drop_duplicates()-Funktion dient zum Entfernen doppelter Zeilen aus dem DataFrame. Standardmäßig entfernt diese Funktion alle Zeilen, die in allen Spalten die gleichen Werte haben. Sie können das subset-Argument verwenden, um anzugeben, welche Spalten auf doppelte Einträge überprüft werden sollen.

Python

 

python# Drop duplicate rows
data = data.drop_duplicates()

replace()

Die replace()-Funktion wird verwendet, um Werte in einer Spalte durch neue Werte zu ersetzen. Sie können den alten Wert angeben, der ersetzt werden soll, und den neuen Wert, der ihn ersetzen soll. Diese Funktion ist nützlich zur Behandlung von Datenqualitätsproblemen wie Schreibfehlern oder inkonsistenter Formatierung.

Python

 

python# Replace values in a column
data['column_name'] = data['column_name'].replace('old_value', 'new_value')

Dies sind nur einige Beispiele für Pandas-Funktionen, die Sie zur Datenbereinigung verwenden können. Es gibt viele andere Funktionen, die Sie je nach Ihren spezifischen Bedürfnissen bei der Datenreinigung verwenden können, wie z.B. fillna() zum Auffüllen fehlender Werte mit einem bestimmten Wert oder einer Methode, astype() zum Konvertieren von Datentypen von Spalten, clip() zum Abschneiden von Ausreißern und mehr.

Die Datenbereinigung spielt eine entscheidende Rolle bei der Vorbereitung von Daten für die Analyse, und die Automatisierung dieses Prozesses kann Zeit sparen und die Datenqualität gewährleisten. Neben den zuvor erwähnten Funktionen von Pandas können Automatisierungstechniken angewendet werden, um die Datenbereinigungsworkflows zu optimieren. Beispielsweise können wiederverwendbare Funktionen oder Pipelines erstellt werden, um fehlende Werte zu behandeln, Duplikate zu entfernen und Werte in mehreren Datensätzen zu ersetzen. Darüber hinaus können fortgeschrittene Techniken wie Imputation zur intelligenten Auffüllung fehlender Werte oder reguläre Ausdrücke zur Identifizierung und Korrektur inkonsistenter Formatierung genutzt werden. Durch die Kombination der Leistungsfähigkeit von Pandas-Funktionen mit Automatisierungsstrategien können Daten effizient gereinigt und standardisiert werden, was die Zuverlässigkeit und Genauigkeit der explorativen Datenanalyse (EDA) verbessert.

Datenvisualisierung 

Die Datenvisualisierung ist ein entscheidender Bestandteil der Datenwissenschaft, da sie es uns ermöglicht, schnell und einfach Erkenntnisse aus Daten zu gewinnen. Matplotlib ist eine beliebte Python-Bibliothek zum Erstellen einer Vielzahl von Datenvisualisierungen, einschließlich Streudiagrammen, Liniendiagrammen, Balkencharts, Histogrammen, Boxplots und mehr.

Hier sind einige Beispiele dafür, wie man diese Arten von Visualisierungen mit Matplotlib erstellt:

Streudiagramm

A scatter plot is used to visualize the relationship between two continuous variables. You can create a scatter plot in Matplotlib using the scatter() function.

Python

 

python# Create a scatter plot
plt.scatter(data['column1'], data['column2']) plt.xlabel('Column 1') plt.ylabel('Column 2') plt.show()

In diesem Beispiel erstellen wir ein Streudiagramm mit Spalte1 auf der x-Achse und Spalte2 auf der y-Achse. Wir fügen auch Beschriftungen zur x-Achse und y-Achse hinzu, indem wir die Funktionen xlabel() und ylabel() verwenden.

Histogramm

A histogram is used to visualize the distribution of a single continuous variable. You can create a histogram in Matplotlib using the hist() function.

Python

 

python# Create a histogram
plt.hist(data['column'], bins=10) plt.xlabel('Column') plt.ylabel('Frequency') plt.show()

In diesem Beispiel erstellen wir ein Histogramm der Spalte-Variablen mit 10 Klassen. Wir fügen außerdem Beschriftungen für die x-Achse und y-Achse hinzu, indem wir die Funktionen xlabel() und ylabel() verwenden.

Box-Plot

A box plot is used to visualize the distribution of a single continuous variable and to identify outliers. You can create a box plot in Matplotlib using the boxplot() function.

Python

 

python# Create a box plot
plt.boxplot(data['column']) plt.ylabel('Column') plt.show()

In diesem Beispiel erstellen wir ein Box-Plot der Spalte-Variablen. Wir fügen auch eine Beschriftung für die y-Achse hinzu, indem wir die Funktion ylabel() verwenden.

Dies sind nur einige Beispiele dessen, was Sie mit Matplotlib für die Datenvisualisierung tun können. Es gibt viele andere Funktionen und Techniken, die Sie je nach den spezifischen Anforderungen Ihres Projekts verwenden können.

Schlussfolgerung

Die explorative Datenanalyse (EDA) ist ein entscheidender Schritt in jedem Data-Science-Projekt, und Python bietet leistungsfähige Werkzeuge, um EDA effektiv durchzuführen. In diesem Artikel haben wir gelernt, wie man mit den beliebten Python-Bibliotheken Pandas und Matplotlib Daten laden, erkunden, reinigen und visualisieren kann. Pandas bietet eine flexible und effiziente Möglichkeit, Daten zu manipulieren und zu analysieren, während Matplotlib eine Vielzahl von Optionen zur Erstellung von Visualisierungen bietet. Indem wir diese beiden Bibliotheken nutzen, können wir schnell und einfach Erkenntnisse aus Daten gewinnen. Mit den in diesem Artikel gelernten Fähigkeiten und Techniken können Sie mit der Durchführung von EDA an Ihren eigenen Datensätzen beginnen und wertvolle Erkenntnisse gewinnen, die datengetriebene Entscheidungen voranbringen können.

Source:
https://dzone.com/articles/how-to-use-pandas-and-matplotlib-to-perform-explor