Come Utilizzare Pandas e Matplotlib per Eseguire l’EDA in Python

L’analisi dei dati esplorativa (EDA) è un passo essenziale in qualsiasi progetto di data science, poiché ci permette di comprendere i dati, rilevare pattern e identificare potenziali problemi. In questo articolo, esploreremo come utilizzare due popolari librerie Python, Pandas e Matplotlib, per eseguire l’EDA. Pandas è una potente libreria per la manipolazione e l’analisi dei dati, mentre Matplotlib è una libreria versatile per la visualizzazione dei dati. Copriremo le basi del caricamento dei dati in un DataFrame pandas, dell’esplorazione dei dati utilizzando le funzioni di pandas, della pulizia dei dati e, infine, della visualizzazione dei dati utilizzando Matplotlib. Alla fine di questo articolo, avrai una solida comprensione di come utilizzare Pandas e Matplotlib per eseguire l’EDA in Python.

Importazione delle Librerie e dei Dati

Importazione delle Librerie

Per utilizzare le librerie pandas e Matplotlib nel tuo codice Python, devi prima importarle. Puoi farlo utilizzando l’istruzione import seguita dal nome della libreria.

Python

 

python import pandas as pd
import matplotlib.pyplot as plt

In questo esempio, stiamo importando pandas e aliando come ‘pd’, che è una convenzione comune nella comunità di data science. Stiamo anche importando matplotlib.pyplot e aliando come ‘plt’. Importando queste librerie, possiamo utilizzare le loro funzioni e metodi per lavorare con i dati e creare visualizzazioni.

Caricamento dei Dati

Una volta importati i necessari librerie, è possibile caricare i dati in un DataFrame di pandas. Pandas offre diversi metodi per caricare dati da vari formati di file, tra cui CSV, Excel, JSON e altro ancora. Il metodo più comune è read_csv, che legge i dati da un file CSV e restituisce un DataFrame.

Python

 

python# Load data into a pandas DataFrame
data = pd.read_csv('path/to/data.csv')

In questo esempio, stiamo caricando dati da un file CSV situato in ‘path/to/data.csv’ e memorizzandolo in una variabile chiamata ‘data’. È possibile sostituire ‘path/to/data.csv’ con il percorso effettivo del file dei tuoi dati.

Caricando i dati in un DataFrame di pandas, possiamo facilmente manipolare e analizzare i dati utilizzando le funzioni e i metodi di pandas. Il DataFrame è una struttura di dati bidimensionale simile a una tabella che ci permette di lavorare con i dati in modo strutturato e organizzato. Offre funzioni per selezionare, filtrare, raggruppare, aggregare e visualizzare i dati.

Esplorazione dei dati

head() e tail()

Le funzioni head() e tail() sono utilizzate per visualizzare le prime e ultime righe dei dati, rispettivamente. Per impostazione predefinita, queste funzioni visualizzano le prime/ultime cinque righe dei dati, ma è possibile specificare un numero diverso di righe come argomento.

Python

 

python# View the first 5 rows of the data
print(data.head()) 
# Visualizza le ultime 10 righe dei dati
print(data.tail(10))

info()

La funzione info() fornisce informazioni sul DataFrame, inclusa il numero di righe e colonne, i tipi di dati di ogni colonna e il numero di valori non nulli. Questa funzione è utile per identificare valori mancanti e determinare i tipi di dati appropriati per ogni colonna.

Python

 

python# Get information about the data
print(data.info())

describe()

La funzione describe() fornisce statistiche di sintesi per le colonne numeriche nel DataFrame, inclusa la conta, la media, la deviazione standard, il minimo, il massimo e i quartili. Questa funzione è utile per ottenere velocemente un’istantanea della distribuzione dei dati.

Python

 

python# Get summary statistics for the data
print(data.describe())

value_counts()

La funzione value_counts() viene utilizzata per contare il numero di occorrenze di ogni valore unico in una colonna. Questa funzione è utile per identificare la frequenza di valori specifici nei dati.

Python

 

python# Count the number of unique values in a column
print(data['column_name'].value_counts())

Questi sono solo alcuni esempi di funzioni di panda che puoi utilizzare per esplorare i dati. Ci sono molte altre funzioni che puoi utilizzare a seconda delle tue esigenze specifiche di esplorazione dei dati, come isnull() per verificare i valori mancanti, groupby() per raggruppare i dati in base a una colonna specifica, corr() per calcolare i coefficienti di correlazione tra le colonne e altro ancora.

Pulizia dei Dati 

isnull()

La funzione isnull() viene utilizzata per verificare i valori mancanti o nulli nel DataFrame. Restituisce un DataFrame della stessa forma dell’originale, con valori True dove i dati sono mancanti e valori False dove i dati sono presenti. Puoi utilizzare la funzione sum() per contare il numero di valori mancanti in ogni colonna.

Python

 

python# Check for missing values
print(data.isnull().sum())

dropna()

La funzione dropna() viene utilizzata per rimuovere righe o colonne con valori mancanti o nulli. Per impostazione predefinita, questa funzione rimuove qualsiasi riga che contiene almeno un valore mancante. È possibile utilizzare l’argomento subset per specificare quali colonne controllare per i valori mancanti e l’argomento how per specificare se eliminare le righe con qualsiasi valore mancante o solo le righe in cui tutti i valori sono mancanti.

Python

 

python# Drop rows with missing values
data = data.dropna()

drop_duplicates()

La funzione drop_duplicates() viene utilizzata per rimuovere righe duplicate dal DataFrame. Per impostazione predefinita, questa funzione rimuove tutte le righe che hanno gli stessi valori in tutte le colonne. È possibile utilizzare l’argomento subset per specificare quali colonne controllare per duplicati.

Python

 

python# Drop duplicate rows
data = data.drop_duplicates()

replace()

La funzione replace() viene utilizzata per sostituire i valori in una colonna con nuovi valori. È possibile specificare il valore vecchio da sostituire e il nuovo valore con cui sostituirlo. Questa funzione è utile per gestire problemi di qualità dei dati come errori di battitura o formattazione inconsistente.

Python

 

python# Replace values in a column
data['column_name'] = data['column_name'].replace('old_value', 'new_value')

Questi sono solo alcuni esempi di funzioni pandas che è possibile utilizzare per pulire i dati. Ci sono molte altre funzioni che è possibile utilizzare a seconda delle esigenze specifiche di pulizia dei dati, come fillna() per riempire i valori mancanti con un valore o un metodo specifico, astype() per convertire i tipi di dati delle colonne, clip() per ritagliare gli outlier e altro ancora.

Il cleaning dei dati svolge un ruolo cruciale nella preparazione dei dati per l’analisi, e automatizzare il processo può risparmiare tempo e garantire la qualità dei dati. Oltre alle funzioni di pandas menzionate in precedenza, si possono applicare tecniche di automazione per semplificare i flussi di lavoro di pulizia dei dati. Ad esempio, è possibile creare funzioni o pipeline riutilizzabili per gestire i valori mancanti, eliminare duplicati e sostituire valori attraverso più dataset. Inoltre, si possono sfruttare tecniche avanzate come l’imputazione per riempire intelligentemente i valori mancanti o le espressioni regolari per identificare e correggere formattazioni inconsistenti. Combinando il potere delle funzioni di pandas con strategie di automazione, è possibile pulire ed uniformare i dati in modo efficiente, migliorando la affidabilità e l’accuratezza dell’analisi dei dati esplorativa (EDA).

Visualizzazione dei dati

La visualizzazione dei dati è un componente critico della data science, poiché ci permette di trarre insight dai dati in modo rapido ed efficace. Matplotlib è una popolare libreria Python per creare una vasta gamma di visualizzazioni di dati, tra cui scatter plot, line plot, grafici a barre, istogrammi, box plot e altro ancora.

Ecco alcuni esempi di come creare questi tipi di visualizzazioni utilizzando Matplotlib:

Scatter Plot

A scatter plot is used to visualize the relationship between two continuous variables. You can create a scatter plot in Matplotlib using the scatter() function.

Python

 

python# Create a scatter plot
plt.scatter(data['column1'], data['column2']) plt.xlabel('Column 1') plt.ylabel('Column 2') plt.show()

In questo esempio, stiamo creando un scatter plot con column1 sull’asse x e column2 sull’asse y. Stiamo anche aggiungendo etichette agli assi x e y utilizzando le funzioni xlabel() e ylabel().

Istogramma

A histogram is used to visualize the distribution of a single continuous variable. You can create a histogram in Matplotlib using the hist() function.

Python

 

python# Create a histogram
plt.hist(data['column'], bins=10) plt.xlabel('Column') plt.ylabel('Frequency') plt.show()

In questo esempio, stiamo creando un istogramma della variabile column con 10 bin. Stiamo anche aggiungendo etichette all’asse x e all’asse y utilizzando le funzioni xlabel() e ylabel().

Box Plot

A box plot is used to visualize the distribution of a single continuous variable and to identify outliers. You can create a box plot in Matplotlib using the boxplot() function.

Python

 

python# Create a box plot
plt.boxplot(data['column']) plt.ylabel('Column') plt.show()

In questo esempio, stiamo creando un box plot della variabile column. Stiamo anche aggiungendo un’etichetta all’asse y utilizzando la funzione ylabel().

Questi sono solo alcuni esempi di ciò che puoi fare con Matplotlib per la visualizzazione dei dati. Ci sono molte altre funzioni e tecniche che puoi utilizzare, a seconda delle specifiche esigenze del tuo progetto.

Conclusione

L’analisi dei dati esplorativa (EDA) è un passo cruciale in qualsiasi progetto di data science, e Python fornisce potenti strumenti per eseguire l’EDA in modo efficace. In questo articolo, abbiamo imparato come utilizzare due popolari librerie Python, Pandas e Matplotlib, per caricare, esplorare, pulire e visualizzare i dati. Pandas fornisce un modo flessibile ed efficiente per manipolare e analizzare i dati, mentre Matplotlib offre una vasta gamma di opzioni per creare visualizzazioni. Avvalendoci di queste due librerie, possiamo acquisire informazioni dai dati in modo rapido e semplice. Con le abilità e le tecniche apprese in questo articolo, puoi iniziare a eseguire l’EDA sui tuoi dataset e scoprire informazioni preziose che possono guidare la decisione basata sui dati.

Source:
https://dzone.com/articles/how-to-use-pandas-and-matplotlib-to-perform-explor