Wünschst du dir, dass deine Daten sich selbst analysieren? Nun, wir sind ein Schritt näher zu diesem Tag. PandasAI ist ein bahnbrechendes Werkzeug, das die Datenanalyse erheblich vereinfacht. Diese Python-Bibliothek erweitert die Fähigkeiten der beliebten Pandas-Bibliothek mit Hilfe von generativem AI, was automatisierte aber anspruchsvolle Datenanalyse zur Realität macht.
Durch die Anwendung von generativen Modellen wie OpenAI’s GPT-3.5 kann PandasAI menschenähnliche Abfragen verstehen und beantworten, komplexe Datenmanipulationen ausführen und visuelle Darstellungen erzeugen. Die Kombination von Datenanalyse und KI schafft Erkenntnisse, die neue Wege für Unternehmen und Forscher eröffnen.
In diesem Tutorial werden wir untersuchen, wie man diese leistungsstarke Bibliothek für verschiedene Aufgaben einsetzt. Fangen wir an!
PandasAI einrichten
Um PandasAI einzurichten, müssen wir PandasAI mit pip installieren, wie unten gezeigt:
pip install pandasai
Um mit OpenAI’s Modellen zu interagieren, benötigst du einen API-Schlüssel. Wenn du noch keinen OpenAI API-Schlüssel hast, kannst du dich auf der OpenAI-Plattform für ein Konto anmelden und dort deinen API-Schlüssel erzeugen. Der folgende Code hilft bei der Initialisierung einer Instanz von PandasAI mit OpenAI:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# Speichern des API-Tokens in der Open AI-Umgebung
# Ersetzen Sie "YOUR_API_KEY" durch Ihr generiertes API-Schlüssel
llm = OpenAI(api_token='YOUR_API_KEY')
# Initialisierung einer Instanz von Pandas AI mit OpenAI-Umgebung
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
Generative AI: Ein kurzer Überblick
Generative AI ist ein Unterbereich der künstlichen Intelligenz, der neue Daten erzeugt, die einem vorhandenen Datensatz ähneln. Im Gegensatz zu diskriminativen Modellen, die Klassifikationen oder Vorhersagen basierend auf gegebenen Daten treffen, können generative Modelle neue Inhalte produzieren. Generative AI kann auf Text, Bilder und komplexe Datenstrukturen angewendet werden.
Für die Datenanalyse kann generative AI realistische Datensätze zur Modelltrainierung synthetisieren, fehlende Datenpunkte auffüllen und sogar bei der Erstellung von Analyseberichten helfen. Seine Fähigkeit, Datenmuster zu verstehen und nachzuahmen, macht es zu einem starken Motor.
Wie PandasAI generative AI zur Datenbereinigung nutzt
PandasAI nutzt generative AI, um den Datenbereinigungsprozess zu automatisieren und zu verbessern. Anstatt Fehler manuell zu identifizieren und zu beheben, können Sie natürlichsprachige Prompts verwenden, um dem AI Anweisungen zur Datenreinigung zu geben.
Zum Beispiel können Sie es auffordern, „doppelte Einträge zu entfernen“ oder „fehlende Werte aufzufüllen“, und der AI-Motor erzeugt einen gereinigten Datensatz, der Ihnen wertvolle Zeit und Mühe spart.
Lassen Sie uns einen Datensatz mit einigen fehlenden Werten erstellen:
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
Now, we can prompt to get clean preprocessed data with the following code:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
The output is shown below. You can see that the data has been cleaned.
Feature Engineering mit Hilfe von generativem AI
Das manuelle Erstellen neuer Features in einem Datensatz kann eine mühsame Aufgabe sein. Sie können dem AI-Motor Anweisungen geben, um neue Features basierend auf vorhandenen Datenspalten zu generieren.
Zum Beispiel können Sie mit dem folgenden Codeausschnitt ganz einfach neue Datenattribute erstellen, was den Umfang und die Qualität Ihrer Datenanalyse erheblich verbessert.
response = pandas_ai.run(df, "Create new features from this data")
print(response)
You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!
Intelligente Datenvisualisierung durch generatives KI
PandasAI verbessert die Datenvisualisierung, indem es generative KI einsetzt, um die passendsten visuellen Darstellungen für Ihre Datensätze vorzuschlagen. Anstatt sich zu fragen, welcher Chart oder welches Diagramm zu verwenden ist, erhalten Sie maßgeschneiderte Vorschläge, die Ihnen dabei helfen, das Beste aus Ihren Daten herauszuholen.
Zum Beispiel:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
Im Ausgabebereich unten können Sie sehen, dass die Daten auf die Weise visualisiert wurden, die die KI-Engine für am besten hält.
Echtes Anwendungsbeispiel: Generative KI in der Finanzprognose
Schauen wir uns ein echtes Anwendungsbeispiel von PandasAI an. Es kann mehr tun als nur historische Aktienkursdaten analysieren; es kann zukünftige Szenarien basierend auf Markttrends, Unternehmensleistung und globalen Ereignissen simulieren.
Wir können generative Modelle verwenden, um eine Reihe möglicher zukünftiger Aktienkurse zu erstellen, wobei Volatilität und andere Marktindikatoren berücksichtigt werden. Diese umfassende, zukunftsorientierte Herangehensweise ermöglicht es Investoren und Analysten, sich besser auf finanzielle Ergebnisse vorzubereiten, wodurch generative KI zu einem unschätzbaren Vermögenswert in der Finanzprognose wird.
Pandas vs. PandasAI: Der Vorteil der generativen KI
Obwohl Pandas eine weit verbreitete Bibliothek ist, die viele Menschen für Datenmanipulation und -analyse verwenden, geht PandasAI darüber hinaus, indem es generative KI-Fähigkeiten integriert. Mit traditionellem Pandas könnten Sie Code schreiben, um Daten zu filtern, zu transformieren und zu visualisieren, aber Sie sind auf die Daten beschränkt, die Sie bereits haben.
PandasAI hingegen kann neue Erkenntnisse und Visualisierungen generieren und sogar Daten basierend auf natürlichen Sprachprompts manipulieren. Der generative KI-Motor kann Analysen liefern, die schwer zu manuell zu codieren wären. Stellen Sie sich vor, Sie fragen Ihre Daten: „Wie hoch ist das potenzielle Umsatzvolumen für das nächste Quartal?“ und erhalten als Antwort einen generierten Bericht – das ist die Macht von PandasAI.
Hinweis: Wir haben verschiedene Prompts besprochen, die PandasAI akzeptiert. Wenn Sie Ihre kreativen Prompts ausprobieren, gibt es nur eine kleine Warnung, dass einige Fehler auslösen könnten. Hier ist ein Link zu einem hilfreichen Thread zum Debuggen dieses Problems: Absturz „Ungültige Eingabedaten. Muss ein Pandas- oder Polars-Datenrahmen sein“ bei der „Zeile“ Frage.
Schlussfolgerung
PandasAI ist nicht nur ein weiteres Datenmanipulationswerkzeug; es ist ein entscheidender Schritt in der Datenanalyse dank seiner generativen KI-Fähigkeiten. Es überwindet die Grenzen traditioneller Analyseframeworks, indem es nicht nur mit Ihren Daten arbeitet, sondern sie versteht, um neue Erkenntnisse zu generieren.
Von der Ausfüllung von Lücken in Datensätzen bis hin zur Prognose von Finanzmärkten sind die Möglichkeiten endlos. Wenn wir uns in eine Zukunft bewegen, in der Daten zunehmend komplex werden, wird die Fähigkeit, daraus bedeutungsvolle Erkenntnisse zu generieren, entscheidend. PandasAI bietet einen Einblick in diese Zukunft, eine Gelegenheit, die Sie erkunden möchten.
Zusätzliche Ressourcen
- Ein weiteres interessantes Tutorial zu PandasAI: PandasAI-Bibliothek von OpenAI
- Die offizielle Dokumentation: PandasAI
Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan