如何使用Pandas和Matplotlib在Python中进行EDA

教程

Pandas

探索性数据分析(EDA)是任何数据科学项目中的关键步骤，它帮助我们理解数据、发现模式并识别潜在问题。本文将探讨如何利用两个流行的Python库——Pandas和Matplotlib来进行EDA。Pandas是一个强大的数据处理和分析库，而Matplotlib则是一个多功能的可视化库。我们将介绍如何将数据加载到Pandas的DataFrame中，使用Pandas函数探索数据，清洗数据，并最终使用Matplotlib进行数据可视化。通过本文的学习，你将掌握如何利用Pandas和Matplotlib在Python中执行EDA的基本技能。

导入库和数据

导入库

要在Python代码中使用Pandas和Matplotlib库，首先需要导入它们。这可以通过使用import语句后跟库名来实现。

Python

python import pandas as pd
import matplotlib.pyplot as plt

在这个例子中，我们导入了Pandas并将其别名为’pd’，这是数据科学社区中的常见做法。同时，我们也导入了matplotlib.pyplot并将其别名为’plt’。通过导入这些库，我们可以使用它们的函数和方法来处理数据和创建可视化。

加载数据

一旦导入了必要的库，你就可以将数据加载到pandas的DataFrame中。Pandas提供了多种方法来从各种文件格式加载数据，包括CSV、Excel、JSON等。最常用的方法是read_csv，它从CSV文件读取数据并返回一个DataFrame。

Python

python# Load data into a pandas DataFrame
data = pd.read_csv('path/to/data.csv')

在这个例子中，我们正在加载位于’path/to/data.csv’的CSV文件中的数据，并将其存储在一个名为’data’的变量中。你可以将’path/to/data.csv’替换为你的数据文件的实际路径。

通过将数据加载到pandas DataFrame中，我们可以轻松地使用pandas的函数和方法操作和分析数据。DataFrame是一个类似二维表格的数据结构，允许我们以结构化和有组织的方式处理数据。它提供了用于选择、过滤、分组、聚合和可视化数据的函数。

数据探索

`head()` 和`tail()`

使用head()和tail()函数可以分别查看数据的前几行和后几行。默认情况下，这些函数显示数据的前/后五行，但你可以通过参数指定不同的行数。

Python

python# View the first 5 rows of the data
print(data.head()) 
# 查看数据的最后10行
print(data.tail(10))

`info()`

info()函数提供关于DataFrame的信息，包括行数和列数、每列的数据类型以及非空值的数量。这个函数对于识别缺失值和确定每列的适当数据类型非常有用。

Python

python# Get information about the data
print(data.info())

`describe()`

函数describe()为DataFrame中的数值列提供汇总统计信息，包括计数、均值、标准差、最小值、最大值和四分位数。此函数对于快速了解数据的分布情况非常有用。

Python

python# Get summary statistics for the data
print(data.describe())

函数`value_counts()`

用于计算列中每个唯一值的出现次数。此函数有助于识别数据中特定值的频率。

Python

python# Count the number of unique values in a column
print(data['column_name'].value_counts())

这些只是可以使用的一些pandas函数来探索数据。根据您的具体数据探索需求，还有许多其他函数可供使用，例如isnull()检查缺失值，groupby()按特定列分组数据，corr()计算列之间的相关系数等。

数据清洗

函数`isnull()`

用于检查DataFrame中是否存在缺失或空值。它返回一个与原始数据形状相同的DataFrame，其中缺失数据位置为True，存在数据位置为False。您可以使用sum()函数来计算每列中缺失值的数量。

Python

python# Check for missing values
print(data.isnull().sum())

函数`dropna()`

函数dropna()用于移除含有缺失或空值的行或列。默认情况下，该函数会移除任何包含至少一个缺失值的行。你可以通过subset参数指定检查缺失值的列，并通过how参数指定是移除含有任何缺失值的行，还是仅移除所有值都缺失的行。

Python

python# Drop rows with missing values
data = data.dropna()

函数`drop_duplicates()`

用于从DataFrame中移除重复的行。默认情况下，该函数会移除所有列值完全相同的行。你可以通过subset参数指定检查重复的列。

Python

python# Drop duplicate rows
data = data.drop_duplicates()

函数`replace()`

用于替换某一列中的值。你可以指定要替换的旧值及替换为的新值。此函数在处理数据质量问题，如拼写错误或格式不一致时非常有用。

Python

python# Replace values in a column
data['column_name'] = data['column_name'].replace('old_value', 'new_value')

以上仅是几个使用pandas进行数据清洗的函数示例。根据具体的数据清洗需求，还有许多其他函数可供使用，例如fillna()用于填充缺失值，astype()用于转换列的数据类型，clip()用于裁剪异常值等。

数据清洗在数据分析准备阶段扮演着关键角色，而自动化这一过程能够节省时间并确保数据质量。除了之前提到的pandas功能外，自动化技术还可以应用于优化数据清洗工作流程。例如，你可以创建可重复使用的函数或流水线来处理缺失值、删除重复项以及跨多个数据集替换值。此外，你还可以利用高级技术如插补法智能填充缺失值，或使用正则表达式识别并修正格式不一致的问题。通过结合pandas函数与自动化策略，你可以高效地清洗和标准化数据，提升探索性数据分析（EDA）的可靠性与准确性。

数据可视化

数据可视化是数据科学中的关键组成部分，因为它使我们能够快速且轻松地从数据中获取洞见。Matplotlib是一个流行的Python库，用于创建各种数据可视化，包括散点图、线图、条形图、直方图、箱线图等。

以下是使用Matplotlib创建这些类型可视化的一些示例：

散点图

A scatter plot is used to visualize the relationship between two continuous variables. You can create a scatter plot in Matplotlib using the scatter() function.

Python

python# Create a scatter plot
plt.scatter(data['column1'], data['column2']) plt.xlabel('Column 1') plt.ylabel('Column 2') plt.show()

在此示例中，我们正在创建一个散点图，其中column1位于x轴，column2位于y轴。我们还使用xlabel()和ylabel()函数为x轴和y轴添加标签。

直方图

A histogram is used to visualize the distribution of a single continuous variable. You can create a histogram in Matplotlib using the hist() function.

Python

python# Create a histogram
plt.hist(data['column'], bins=10) plt.xlabel('Column') plt.ylabel('Frequency') plt.show()

在此示例中，我们创建了一个包含10个bin的column变量的直方图。同时，我们使用xlabel()和ylabel()函数为x轴和y轴添加标签。

箱线图

A box plot is used to visualize the distribution of a single continuous variable and to identify outliers. You can create a box plot in Matplotlib using the boxplot() function.

Python

python# Create a box plot
plt.boxplot(data['column']) plt.ylabel('Column') plt.show()

在本例中，我们创建了column变量的箱线图。我们还使用ylabel()函数为y轴添加标签。

这些只是使用Matplotlib进行数据可视化的一些示例。根据项目的具体需求，您可以使用许多其他函数和技术。

结论

探索性数据分析（EDA）是任何数据科学项目中的关键步骤，而Python提供了强大的工具来有效执行EDA。在本文中，我们学习了如何使用两个流行的Python库——Pandas和Matplotlib，来加载、探索、清洗和可视化数据。Pandas提供了一种灵活且高效的方式来操作和分析数据，而Matplotlib则提供了广泛的选项来创建可视化。通过利用这两个库，我们可以快速轻松地从数据中获得洞察。掌握了本文中的技能和技术后，您可以开始对自己的数据集进行EDA，并揭示能够推动数据驱动决策的宝贵见解。

Source:
https://dzone.com/articles/how-to-use-pandas-and-matplotlib-to-perform-explor

导入库和数据

导入库

加载数据

数据探索

head() 和tail()

info()

describe()

函数value_counts()

数据清洗

函数isnull()

函数dropna()

函数drop_duplicates()

函数replace()

数据可视化

散点图

直方图

箱线图

结论

`head()` 和`tail()`

`info()`

`describe()`

函数`value_counts()`

函数`isnull()`

函数`dropna()`

函数`drop_duplicates()`

函数`replace()`