利用PandasAI在数据分析中驾驭生成式AI

是否曾梦想过数据能自我分析?如今,我们离这一愿景更近了一步。PandasAI是一款革命性的工具,它极大地简化了数据分析流程。这个Python库借助生成式AI技术,扩展了广受欢迎的Pandas库的功能,使得自动化的复杂数据分析成为现实。

通过应用如OpenAI的GPT-3.5这样的生成模型,PandasAI能够理解并回应人类般的查询,执行复杂的数据操作,并生成可视化表示。数据分析与AI的结合,为企业与研究者开辟了新的洞察路径。

本教程将探讨如何利用这一强大的库进行多样化的任务。让我们开始吧!

安装PandasAI

要安装PandasAI,请按照以下步骤使用pip进行安装:

pip install pandasai

若要与OpenAI的模型交互,你需要一个API密钥。如果你还没有OpenAI API密钥,可以在OpenAI平台上注册账号并生成你的API密钥。以下代码展示了如何初始化一个带有OpenAI的PandasAI实例:

Python

import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI

# 在Open AI环境中存储API Token
# 将"YOUR_API_KEY"替换为您生成的API密钥
llm = OpenAI(api_token='YOUR_API_KEY')

# 初始化一个Pandas AI实例,使用OpenAI环境
pandas_ai = PandasAI(llm, verbose=True, conversational=False)

生成式AI:简要概述

生成式AI是人工智能的一个子集,能够创建与现有数据集相似的新数据。与基于给定数据进行分类或预测的判别模型不同,生成模型能够产生新内容。生成式AI可应用于文本、图像以及复杂数据结构。

在数据分析领域,生成式AI能合成用于模型训练的逼真数据集,填补缺失数据点,甚至辅助生成分析报告。它理解和模仿数据模式的能力使其成为一个强大的引擎。

PandasAI如何利用生成式AI进行数据清洗

PandasAI利用生成式AI自动化并增强数据清洗过程。无需手动识别和修复错误,您可以使用自然语言提示指导AI清洗您的数据。

例如,您可以要求它”移除重复条目”或”填充缺失值”,AI引擎将生成清洗后的数据集,节省您宝贵的时间和精力。

让我们创建一个包含一些缺失值的数据框:

Python

df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

Now, we can prompt to get clean preprocessed data with the following code:

Python

response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)

The output is shown below. You can see that the data has been cleaned.

借助生成式AI进行特征工程

手动在数据集中创建新特征可能是一项繁琐的任务。您可以指示AI引擎基于现有数据列生成新特征。

例如,通过以下代码片段,您可以轻松创建新的数据属性,显著提升数据分析的范围和质量。

Python

response = pandas_ai.run(df, "Create new features from this data")
print(response)

You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!

通过生成式AI实现智能数据可视化

PandasAI利用生成式AI推荐最适合您数据集的可视化表示,从而改善数据可视化。不再为选择哪种图表或图形而烦恼,您可以获得量身定制的建议,帮助您充分利用数据。

例如:

Python

response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)

从下面的输出中可以看到,数据按照AI引擎认为最佳的方式进行了可视化。

实际应用案例:生成式AI在金融预测中的应用

让我们来看一个PandasAI的实际应用案例。它不仅能分析过去的股票价格数据,还能基于市场趋势、公司表现和全球事件模拟未来情景。

我们可以使用生成模型来创建一系列可能的未来股票价格,考虑波动性及其他市场指标。这种全面的前瞻性方法使投资者和分析师能更好地准备应对财务结果,使生成式AI成为金融预测中不可或缺的资产。

Pandas与PandasAI:生成式AI的优势

虽然Pandas是许多人用于数据处理和分析的知名库,但PandasAI通过集成生成式AI能力更进一步。使用传统的Pandas,您可能需要编写代码来过滤、转换和可视化数据,但受限于现有数据。

另一方面,PandasAI能够根据自然语言提示生成新的见解和可视化效果,甚至能够操纵数据。这种生成式AI引擎能够提供难以手动编程的分析。想象一下,向你的数据提问:“下一季度的潜在收入是多少?”并收到一份生成的报告作为回答——这就是PandasAI的力量。

注意:我们已经探讨了PandasAI接受的各种提示。如果你尝试使用创意提示,有一点警告是,某些提示可能会引发错误。这里有一个有用的链接,用于调试该问题:在询问“行”问题时遇到“输入数据无效。必须是Pandas或Polars数据框”的崩溃

结论

PandasAI不仅仅是一个数据处理工具;由于其生成式AI能力,它在数据分析领域迈出了重要的一步。它超越了传统分析框架的局限,不仅与你的数据合作,而且理解数据以生成新的见解。

从填补数据集中的空白到预测金融市场,可能性是无限的。随着我们迈向数据日益复杂的未来,从数据中生成有意义的见解的能力变得至关重要。PandasAI为我们展示了那个未来的一瞥,这是一个你将希望探索的机会。

附加资源

Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan