L’analyse exploratoire des données (EDA) est une étape essentielle dans tout projet de science des données, car elle nous permet de comprendre les données, de détecter des modèles et d’identifier d’éventuels problèmes. Dans cet article, nous allons explorer comment utiliser deux bibliothèques Python populaires, Pandas et Matplotlib, pour effectuer une EDA. Pandas est une bibliothèque puissante pour la manipulation et l’analyse des données, tandis que Matplotlib est une bibliothèque polyvalente pour la visualisation des données. Nous aborderons les bases du chargement des données dans un DataFrame pandas, de l’exploration des données à l’aide de fonctions pandas, du nettoyage des données et, enfin, de la visualisation des données à l’aide de Matplotlib. À la fin de cet article, vous aurez une compréhension solide de la façon d’utiliser Pandas et Matplotlib pour effectuer une EDA en Python.
Importation des bibliothèques et des données
Importation des bibliothèques
Pour utiliser les bibliothèques pandas et Matplotlib dans votre code Python, vous devez d’abord les importer. Vous pouvez le faire en utilisant l’instruction import
suivie du nom de la bibliothèque.
python import pandas as pd
import matplotlib.pyplot as plt
Dans cet exemple, nous importons pandas et l’aliasing en tant que ‘pd’, ce qui est une convention courante dans la communauté de la science des données. Nous importons également matplotlib.pyplot et l’aliasing en tant que ‘plt’. En important ces bibliothèques, nous pouvons utiliser leurs fonctions et méthodes pour travailler avec les données et créer des visualisations.
Chargement des données
Une fois que vous avez importé les bibliothèques nécessaires, vous pouvez charger les données dans un DataFrame pandas. Pandas offre plusieurs méthodes pour charger des données à partir de divers formats de fichiers, y compris CSV, Excel, JSON, et plus encore. La méthode la plus courante est read_csv
, qui lit les données à partir d’un fichier CSV et renvoie un DataFrame.
python# Load data into a pandas DataFrame
data = pd.read_csv('path/to/data.csv')
Dans cet exemple, nous chargeons les données à partir d’un fichier CSV situé à ‘path/to/data.csv’ et les stockerons dans une variable appelée ‘data’. Vous pouvez remplacer ‘path/to/data.csv’ par le chemin réel vers votre fichier de données.
En chargeant les données dans un DataFrame pandas, nous pouvons facilement manipuler et analyser les données en utilisant les fonctions et méthodes de pandas. Le DataFrame est une structure de données en forme de table à deux dimensions qui nous permet de travailler avec des données de manière structurée et organisée. Il fournit des fonctions pour sélectionner, filtrer, grouper, agréger et visualiser les données.
Exploration des données
head()
et tail()
Les fonctions head()
et tail()
sont utilisées pour visualiser les premières et dernières lignes des données, respectivement. Par défaut, ces fonctions affichent les cinq premières/dernières lignes des données, mais vous pouvez spécifier un nombre différent de lignes en argument.
python# View the first 5 rows of the data
print(data.head())
# Afficher les 10 dernières lignes des données
print(data.tail(10))
info()
La fonction info()
fournit des informations sur le DataFrame, y compris le nombre de lignes et de colonnes, les types de données de chaque colonne, et le nombre de valeurs non nulles. Cette fonction est utile pour identifier les valeurs manquantes et déterminer les types de données appropriés pour chaque colonne.
python# Get information about the data
print(data.info())
describe()
La fonction describe()
fournit des statistiques de synthèse pour les colonnes numériques du DataFrame, y compris le nombre, la moyenne, l’écart-type, le minimum, le maximum et les quartiles. Cette fonction est utile pour obtenir un aperçu rapide de la distribution des données.
python# Get summary statistics for the data
print(data.describe())
value_counts()
La fonction value_counts()
est utilisée pour compter le nombre d’occurrences de chaque valeur unique dans une colonne. Cette fonction est utile pour identifier la fréquence de valeurs spécifiques dans les données.
python# Count the number of unique values in a column
print(data['column_name'].value_counts())
Ce ne sont là que quelques exemples de fonctions pandas que vous pouvez utiliser pour explorer les données. Il existe de nombreuses autres fonctions que vous pouvez utiliser en fonction de vos besoins spécifiques d’exploration de données, telles que isnull()
pour vérifier les valeurs manquantes, groupby()
pour grouper les données par une colonne spécifique, corr()
pour calculer les coefficients de corrélation entre les colonnes et bien plus encore.
Nettoyage des données
isnull()
La fonction isnull()
est utilisée pour vérifier les valeurs manquantes ou nulles dans le DataFrame. Elle renvoie un DataFrame de même forme que l’original, avec des valeurs True là où les données sont manquantes et des valeurs False là où les données sont présentes. Vous pouvez utiliser la fonction sum()
pour compter le nombre de valeurs manquantes dans chaque colonne.
python# Check for missing values
print(data.isnull().sum())
dropna()
La fonction dropna()
est utilisée pour supprimer des lignes ou des colonnes comportant des valeurs manquantes ou nulles. Par défaut, cette fonction supprime toute ligne contenant au moins une valeur manquante. Vous pouvez utiliser l’argument subset
pour spécifier quelles colonnes vérifier pour les valeurs manquantes et l’argument how
pour indiquer s’il faut supprimer les lignes avec des valeurs manquantes ou uniquement les lignes où toutes les valeurs sont manquantes.
python# Drop rows with missing values
data = data.dropna()
drop_duplicates()
La fonction drop_duplicates()
est utilisée pour supprimer les lignes en double de la DataFrame. Par défaut, cette fonction supprime toutes les lignes qui ont les mêmes valeurs dans toutes les colonnes. Vous pouvez utiliser l’argument subset
pour spécifier quelles colonnes vérifier pour les doublons.
python# Drop duplicate rows
data = data.drop_duplicates()
replace()
La fonction replace()
est utilisée pour remplacer les valeurs dans une colonne par de nouvelles valeurs. Vous pouvez spécifier la valeur ancienne à remplacer et la nouvelle valeur pour la remplacer. Cette fonction est utile pour gérer les problèmes de qualité des données tels que les erreurs de saisie ou les formats incohérents.
python# Replace values in a column
data['column_name'] = data['column_name'].replace('old_value', 'new_value')
Ce ne sont là que quelques exemples de fonctions pandas que vous pouvez utiliser pour nettoyer les données. Il existe de nombreuses autres fonctions que vous pouvez utiliser en fonction de vos besoins spécifiques de nettoyage des données, telles que fillna()
pour remplir les valeurs manquantes avec une valeur ou une méthode spécifique, astype()
pour convertir les types de données des colonnes, clip()
pour couper les valeurs aberrantes et bien plus encore.
Le nettoyage des données joue un rôle crucial dans la préparation des données pour l’analyse, et l’automatisation du processus peut économiser du temps et garantir la qualité des données. En plus des fonctions de pandas mentionnées précédemment, des techniques d’automatisation peuvent être appliquées pour rationaliser les workflows de nettoyage des données. Par exemple, vous pouvez créer des fonctions réutilisables ou des pipelines pour gérer les valeurs manquantes, supprimer les doublons et remplacer les valeurs à travers plusieurs ensembles de données. De plus, vous pouvez exploiter des techniques avancées comme l’imputation pour remplir intelligemment les valeurs manquantes ou les expressions régulières pour identifier et corriger les formats incohérents. En combinant la puissance des fonctions pandas avec des stratégies d’automatisation, vous pouvez nettoyer et standardiser les données efficacement, améliorant ainsi la fiabilité et la précision de votre analyse exploratoire des données (EDA).
Visualisation des données
La visualisation des données est un composant critique de la science des données, car elle nous permet de tirer des insights des données rapidement et facilement. Matplotlib est une bibliothèque Python populaire pour créer une grande variété de visualisations de données, y compris des nuages de points, des graphiques linéaires, des graphiques à barres, des histogrammes, des boîtes à moustaches, et bien plus.
Voici quelques exemples de création de ces types de visualisations à l’aide de Matplotlib:
Nuage de points
A scatter plot is used to visualize the relationship between two continuous variables. You can create a scatter plot in Matplotlib using the scatter()
function.
python# Create a scatter plot
plt.scatter(data['column1'], data['column2']) plt.xlabel('Column 1') plt.ylabel('Column 2') plt.show()
Dans cet exemple, nous créons un nuage de points avec column1
sur l’axe des x et column2
sur l’axe des y. Nous ajoutons également des libellés aux axes x et y en utilisant les fonctions xlabel()
et ylabel()
.
Histogramme
A histogram is used to visualize the distribution of a single continuous variable. You can create a histogram in Matplotlib using the hist()
function.
python# Create a histogram
plt.hist(data['column'], bins=10) plt.xlabel('Column') plt.ylabel('Frequency') plt.show()
Dans cet exemple, nous créons un histogramme de la variable colonne
avec 10 bins. Nous ajoutons également des étiquettes aux axes x et y en utilisant les fonctions xlabel()
et ylabel()
.
Boîte à moustaches
A box plot is used to visualize the distribution of a single continuous variable and to identify outliers. You can create a box plot in Matplotlib using the boxplot()
function.
python# Create a box plot
plt.boxplot(data['column']) plt.ylabel('Column') plt.show()
Dans cet exemple, nous créons un box plot de la variable colonne
. Nous ajoutons également une étiquette à l’axe y en utilisant la fonction ylabel()
.
Ce ne sont que quelques exemples de ce que vous pouvez faire avec Matplotlib pour la visualisation des données. Il existe de nombreuses autres fonctions et techniques que vous pouvez utiliser, en fonction des besoins spécifiques de votre projet.
Conclusion
L’analyse exploratoire des données (EDA) est une étape cruciale dans tout projet de science des données, et Python fournit des outils puissants pour effectuer l’EDA efficacement. Dans cet article, nous avons appris à utiliser deux bibliothèques Python populaires, Pandas et Matplotlib, pour charger, explorer, nettoyer et visualiser les données. Pandas offre un moyen flexible et efficace de manipuler et d’analyser les données, tandis que Matplotlib offre un large éventail d’options pour créer des visualisations. En tirant parti de ces deux bibliothèques, nous pouvons tirer des informations des données rapidement et facilement. Avec les compétences et techniques acquises dans cet article, vous pouvez commencer à effectuer l’EDA sur vos propres ensembles de données et découvrir des informations précieuses qui peuvent alimenter la prise de décision basée sur les données.
Source:
https://dzone.com/articles/how-to-use-pandas-and-matplotlib-to-perform-explor