データが自分で分析してくれることを願ったことはありませんか?その日がもう少し近づいたようです。PandasAIは、データ分析を大幅に効率化する画期的なツールです。このPythonライブラリは、人気のPandasライブラリの機能を生成AIの助けを借りて拡張し、自動化されたが洗練されたデータ分析を現実にするものです。
OpenAIのGPT-3.5のような生成モデルを適用することで、PandasAIは人間のようなクエリに理解と応答を示し、複雑なデータ操作を実行し、視覚的表現を生成することができます。データ分析とAIが組み合わされ、新たな商機や研究の可能性を拓く洞察を生み出します。
このチュートリアルでは、この強力なライブラリをさまざまなタスクにどのように使用するかを探ります。始めましょう!
PandasAIの設定
PandasAIを設定するには、以下のようにpipでPandasAIをインストールする必要があります。
pip install pandasai
OpenAIのモデルと対話するためには、APIキーが必要です。OpenAI APIキーを持っていない場合は、OpenAIプラットフォームでアカウント登録し、そこでAPIキーを生成できます。以下のコードは、OpenAIを使用してPandasAIのインスタンスを初期化するのに役立ちます。
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# Open AI環境にAPIトークンを保存
# "YOUR_API_KEY"を生成したAPIキーに置き換える
llm = OpenAI(api_token='YOUR_API_KEY')
# OpenAI環境でPandas AIのインスタンスを初期化
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
生成AI: 簡単な概要
生成AIは、既存のデータセットに似た新しいデータを作成する人工知能のサブセットです。与えられたデータに基づいて分類や予測を行う識別モデルとは異なり、生成モデルは新しいコンテンツを生成できます。生成AIは、テキスト、画像、複雑なデータ構造に適用できます。
データ分析において、生成AIはモデルのトレーニングに現実的なデータセットを合成し、欠損したデータポイントを埋め、分析レポートの生成にも役立ちます。データパターンを理解し、模倣する能力があるため、強力なエンジンとなります。
PandasAIがデータクリーニングに生成AIをどのように使用するか
PandasAIは生成AIを使用してデータクリーニングプロセスを自動化および強化します。手動でエラーを識別して修正する代わりに、自然言語のプロンプトを使用してAIにデータをクリーンアップするように指示できます。
たとえば、「重複したエントリを削除する」か「欠損値を埋める」ように依頼でき、AIエンジンはクリーンなデータセットを生成し、貴重な時間と労力を節約します。
欠損値を含むデータフレームを作成しましょう。
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
Now, we can prompt to get clean preprocessed data with the following code:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
The output is shown below. You can see that the data has been cleaned.
生成AIの助けを借りた特徴量エンジニアリング
データセットで新しい特徴を手動で作成することは、退屈な作業かもしれません。AIエンジンに既存のデータ列に基づいて新しい特徴を生成するように指示できます。
例えば、以下のコードスニペットを使用することで、新しいデータ属性を容易に作成し、データ分析の範囲と品質を大幅に向上させることができます。
response = pandas_ai.run(df, "Create new features from this data")
print(response)
You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!
生成AIによるインテリジェントデータ可視化
PandasAIは、生成AIを利用してデータセットに最も適した視覚表現を提案することで、データ可視化を改善します。どのようなチャートやグラフを使用すべきかを悩む代わりに、データを最大限に活用するためのカスタマイズされた提案を受けることができます。
例:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
以下の出力でわかるように、データはAIエンジンが最適だと考える方法で可視化されています。
実生活の使用例: 金融予測における生成AI
PandasAIの実生活での使用例を見てみましょう。過去の株価データの分析を超えて、市場のトレンド、企業の業績、世界的な出来事に基づいて将来のシナリオをシミュレートすることができます。
生成モデルを使用して、市場の変動性やその他の指標を考慮した将来の株価の範囲を作成することができます。この包括的で先見的なアプローチにより、投資家やアナリストは金融成果に対してより良く準備することができ、生成AIは金融予測において貴重な資産となります。
Pandas vs. PandasAI: 生成AIの優位性
Pandasはデータ操作と分析に多くの人々が使用するよく知られたライブラリですが、PandasAIは生成AI機能を統合することでさらに進化しています。従来のPandasでは、フィルタリング、変換、データの可視化のためのコードを書くかもしれませんが、既存のデータに限定されています。
一方で、PandasAIは新たな洞察や可視化を生成し、自然言語のプロンプトに基づいてデータを操作することができます。この生成AIエンジンは、手動でコーディングするのが難しい分析情報を提供できます。データに対して「次の四半期の潜在的な収益はいくらですか?」と尋ね、生成されたレポートを答えとして受け取ることを想像してみてください――これがPandasAIの力です。
注意: 私たちはPandasAIが受け入れるさまざまなプロンプトについて説明しました。創造的なプロンプトを試す場合、いくつかのエラーが発生する可能性があることを少し警告しておきます。その問題をデバッグするのに役立つスレッドへのリンクはこちらです:「行」に関する質問で「無効な入力データ。PandasまたはPolarsデータフレームでなければならない」エラーが発生.
結論
PandasAIは単なるデータ操作ツールではありません。生成AI機能のおかげで、データ分析の大きな一歩です。データと単に働くだけでなく、理解して新たな洞察を生み出すことで、従来の分析フレームワークの限界を超えています。
データセットのギャップを埋めるから、金融市場を予測するまで、可能性は無限です。データがますます複雑になる未来に向かって、それから意味のある洞察を生成する能力が重要になります。PandasAIは、その未来の一瞥を提供し、あなたが探索したい機会です。
追加リソース
- PandasAIに関するもう一つ興味深いチュートリアル: OpenAIからのPandasAIライブラリ
- 公式ドキュメント: PandasAI
Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan