Comment utiliser Pandas et Matplotlib pour réaliser une EDA en Python

L’analyse exploratoire des données (EDA) est une étape essentielle dans tout projet de science des données, car elle nous permet de comprendre les données, de détecter des modèles et d’identifier d’éventuels problèmes. Dans cet article, nous allons explorer comment utiliser deux bibliothèques Python populaires, Pandas et Matplotlib, pour effectuer une EDA. Pandas est une bibliothèque puissante pour la manipulation et l’analyse des données, tandis que Matplotlib est une bibliothèque polyvalente pour la visualisation des données. Nous aborderons les bases du chargement des données dans un DataFrame pandas, de l’exploration des données à l’aide de fonctions pandas, du nettoyage des données et, enfin, de la visualisation des données à l’aide de Matplotlib. À la fin de cet article, vous aurez une compréhension solide de la façon d’utiliser Pandas et Matplotlib pour effectuer une EDA en Python.

Importation des bibliothèques et des données

Importation des bibliothèques

Pour utiliser les bibliothèques pandas et Matplotlib dans votre code Python, vous devez d’abord les importer. Vous pouvez le faire en utilisant l’instruction import suivie du nom de la bibliothèque.

Python

 

python import pandas as pd
import matplotlib.pyplot as plt

Dans cet exemple, nous importons pandas et l’aliasing en tant que ‘pd’, ce qui est une convention courante dans la communauté de la science des données. Nous importons également matplotlib.pyplot et l’aliasing en tant que ‘plt’. En important ces bibliothèques, nous pouvons utiliser leurs fonctions et méthodes pour travailler avec les données et créer des visualisations.

Chargement des données

Une fois que vous avez importé les bibliothèques nécessaires, vous pouvez charger les données dans un DataFrame pandas. Pandas offre plusieurs méthodes pour charger des données à partir de divers formats de fichiers, y compris CSV, Excel, JSON, et plus encore. La méthode la plus courante est read_csv, qui lit les données à partir d’un fichier CSV et renvoie un DataFrame.

Python

 

python# Load data into a pandas DataFrame
data = pd.read_csv('path/to/data.csv')

Dans cet exemple, nous chargeons les données à partir d’un fichier CSV situé à ‘path/to/data.csv’ et les stockerons dans une variable appelée ‘data’. Vous pouvez remplacer ‘path/to/data.csv’ par le chemin réel vers votre fichier de données.

En chargeant les données dans un DataFrame pandas, nous pouvons facilement manipuler et analyser les données en utilisant les fonctions et méthodes de pandas. Le DataFrame est une structure de données en forme de table à deux dimensions qui nous permet de travailler avec des données de manière structurée et organisée. Il fournit des fonctions pour sélectionner, filtrer, grouper, agréger et visualiser les données.

Exploration des données

head() et tail()

Les fonctions head() et tail() sont utilisées pour visualiser les premières et dernières lignes des données, respectivement. Par défaut, ces fonctions affichent les cinq premières/dernières lignes des données, mais vous pouvez spécifier un nombre différent de lignes en argument.

Python

 

python# View the first 5 rows of the data
print(data.head()) 
# Afficher les 10 dernières lignes des données
print(data.tail(10))

info()

La fonction info() fournit des informations sur le DataFrame, y compris le nombre de lignes et de colonnes, les types de données de chaque colonne, et le nombre de valeurs non nulles. Cette fonction est utile pour identifier les valeurs manquantes et déterminer les types de données appropriés pour chaque colonne.

Python

 

python# Get information about the data
print(data.info())

describe()

La fonction describe() fournit des statistiques de synthèse pour les colonnes numériques du DataFrame, y compris le nombre, la moyenne, l’écart-type, le minimum, le maximum et les quartiles. Cette fonction est utile pour obtenir un aperçu rapide de la distribution des données.

Python

 

python# Get summary statistics for the data
print(data.describe())

value_counts()

La fonction value_counts() est utilisée pour compter le nombre d’occurrences de chaque valeur unique dans une colonne. Cette fonction est utile pour identifier la fréquence de valeurs spécifiques dans les données.

Python

 

python# Count the number of unique values in a column
print(data['column_name'].value_counts())

Ce ne sont là que quelques exemples de fonctions pandas que vous pouvez utiliser pour explorer les données. Il existe de nombreuses autres fonctions que vous pouvez utiliser en fonction de vos besoins spécifiques d’exploration de données, telles que isnull() pour vérifier les valeurs manquantes, groupby() pour grouper les données par une colonne spécifique, corr() pour calculer les coefficients de corrélation entre les colonnes et bien plus encore.

Nettoyage des données 

isnull()

La fonction isnull() est utilisée pour vérifier les valeurs manquantes ou nulles dans le DataFrame. Elle renvoie un DataFrame de même forme que l’original, avec des valeurs True là où les données sont manquantes et des valeurs False là où les données sont présentes. Vous pouvez utiliser la fonction sum() pour compter le nombre de valeurs manquantes dans chaque colonne.

Python

 

python# Check for missing values
print(data.isnull().sum())

dropna()

La fonction dropna() est utilisée pour supprimer des lignes ou des colonnes comportant des valeurs manquantes ou nulles. Par défaut, cette fonction supprime toute ligne contenant au moins une valeur manquante. Vous pouvez utiliser l’argument subset pour spécifier quelles colonnes vérifier pour les valeurs manquantes et l’argument how pour indiquer s’il faut supprimer les lignes avec des valeurs manquantes ou uniquement les lignes où toutes les valeurs sont manquantes.

Python

 

python# Drop rows with missing values
data = data.dropna()

drop_duplicates()

La fonction drop_duplicates() est utilisée pour supprimer les lignes en double de la DataFrame. Par défaut, cette fonction supprime toutes les lignes qui ont les mêmes valeurs dans toutes les colonnes. Vous pouvez utiliser l’argument subset pour spécifier quelles colonnes vérifier pour les doublons.

Python

 

python# Drop duplicate rows
data = data.drop_duplicates()

replace()

La fonction replace() est utilisée pour remplacer les valeurs dans une colonne par de nouvelles valeurs. Vous pouvez spécifier la valeur ancienne à remplacer et la nouvelle valeur pour la remplacer. Cette fonction est utile pour gérer les problèmes de qualité des données tels que les erreurs de saisie ou les formats incohérents.

Python

 

python# Replace values in a column
data['column_name'] = data['column_name'].replace('old_value', 'new_value')

Ce ne sont là que quelques exemples de fonctions pandas que vous pouvez utiliser pour nettoyer les données. Il existe de nombreuses autres fonctions que vous pouvez utiliser en fonction de vos besoins spécifiques de nettoyage des données, telles que fillna() pour remplir les valeurs manquantes avec une valeur ou une méthode spécifique, astype() pour convertir les types de données des colonnes, clip() pour couper les valeurs aberrantes et bien plus encore.

Le nettoyage des données joue un rôle crucial dans la préparation des données pour l’analyse, et l’automatisation du processus peut économiser du temps et garantir la qualité des données. En plus des fonctions de pandas mentionnées précédemment, des techniques d’automatisation peuvent être appliquées pour rationaliser les workflows de nettoyage des données. Par exemple, vous pouvez créer des fonctions réutilisables ou des pipelines pour gérer les valeurs manquantes, supprimer les doublons et remplacer les valeurs à travers plusieurs ensembles de données. De plus, vous pouvez exploiter des techniques avancées comme l’imputation pour remplir intelligemment les valeurs manquantes ou les expressions régulières pour identifier et corriger les formats incohérents. En combinant la puissance des fonctions pandas avec des stratégies d’automatisation, vous pouvez nettoyer et standardiser les données efficacement, améliorant ainsi la fiabilité et la précision de votre analyse exploratoire des données (EDA).

Visualisation des données

La visualisation des données est un composant critique de la science des données, car elle nous permet de tirer des insights des données rapidement et facilement. Matplotlib est une bibliothèque Python populaire pour créer une grande variété de visualisations de données, y compris des nuages de points, des graphiques linéaires, des graphiques à barres, des histogrammes, des boîtes à moustaches, et bien plus.

Voici quelques exemples de création de ces types de visualisations à l’aide de Matplotlib:

Nuage de points

A scatter plot is used to visualize the relationship between two continuous variables. You can create a scatter plot in Matplotlib using the scatter() function.

Python

 

python# Create a scatter plot
plt.scatter(data['column1'], data['column2']) plt.xlabel('Column 1') plt.ylabel('Column 2') plt.show()

Dans cet exemple, nous créons un nuage de points avec column1 sur l’axe des x et column2 sur l’axe des y. Nous ajoutons également des libellés aux axes x et y en utilisant les fonctions xlabel() et ylabel().

Histogramme

A histogram is used to visualize the distribution of a single continuous variable. You can create a histogram in Matplotlib using the hist() function.

Python

 

python# Create a histogram
plt.hist(data['column'], bins=10) plt.xlabel('Column') plt.ylabel('Frequency') plt.show()

Dans cet exemple, nous créons un histogramme de la variable colonne avec 10 bins. Nous ajoutons également des étiquettes aux axes x et y en utilisant les fonctions xlabel() et ylabel().

Boîte à moustaches

A box plot is used to visualize the distribution of a single continuous variable and to identify outliers. You can create a box plot in Matplotlib using the boxplot() function.

Python

 

python# Create a box plot
plt.boxplot(data['column']) plt.ylabel('Column') plt.show()

Dans cet exemple, nous créons un box plot de la variable colonne. Nous ajoutons également une étiquette à l’axe y en utilisant la fonction ylabel().

Ce ne sont que quelques exemples de ce que vous pouvez faire avec Matplotlib pour la visualisation des données. Il existe de nombreuses autres fonctions et techniques que vous pouvez utiliser, en fonction des besoins spécifiques de votre projet.

Conclusion

L’analyse exploratoire des données (EDA) est une étape cruciale dans tout projet de science des données, et Python fournit des outils puissants pour effectuer l’EDA efficacement. Dans cet article, nous avons appris à utiliser deux bibliothèques Python populaires, Pandas et Matplotlib, pour charger, explorer, nettoyer et visualiser les données. Pandas offre un moyen flexible et efficace de manipuler et d’analyser les données, tandis que Matplotlib offre un large éventail d’options pour créer des visualisations. En tirant parti de ces deux bibliothèques, nous pouvons tirer des informations des données rapidement et facilement. Avec les compétences et techniques acquises dans cet article, vous pouvez commencer à effectuer l’EDA sur vos propres ensembles de données et découvrir des informations précieuses qui peuvent alimenter la prise de décision basée sur les données.

Source:
https://dzone.com/articles/how-to-use-pandas-and-matplotlib-to-perform-explor