Heb je ooit gewenst dat je gegevens zichzelf zouden analyseren? Nou, we zijn een stap dichterbij die dag. PandasAI is een baanbrekend hulpmiddel dat de gegevensanalyse aanzienlijk versnelt. Deze Python-bibliotheek breidt de mogelijkheden van de populaire Pandas-bibliotheek uit met behulp van generatieve AI, waardoor geautomatiseerde maar verfijnde gegevensanalyse werkelijkheid wordt.
Door het toepassen van generatieve modellen zoals OpenAI’s GPT-3.5, kan PandasAI begrijpende en menselijke vragen beantwoorden, complexe gegevensmanipulaties uitvoeren en visuele representaties genereren. Gegevensanalyse en AI combineren om inzichten te creëren die nieuwe mogelijkheden bieden voor bedrijven en onderzoekers.
Deze tutorial zal onderzoeken hoe u deze krachtige bibliotheek voor verschillende taken kunt gebruiken. Laten we beginnen!
PandasAI instellen
Om PandasAI in te stellen, moeten we PandasAI met pip installeren zoals hieronder te zien is:
pip install pandasai
Om te communiceren met OpenAI’s modellen, heb je een API-sleutel nodig. Als je geen OpenAI API-sleutel hebt, kun je een account aanmaken op het OpenAI-platform en daar je API-sleutel genereren. Het volgende codefragment helpt bij het initialiseren van een instantie van PandasAI met OpenAI:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# Opslaan van de API-token in de Open AI-omgeving
# Vervang "YOUR_API_KEY" door uw gegenereerde API-sleutel
llm = OpenAI(api_token='YOUR_API_KEY')
# Initialiseren van een exemplaar van Pandas AI met OpenAI-omgeving
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
Generatieve AI: Een korte overzicht
Generatieve AI is een subset van kunstmatige intelligentie die nieuwe data creëert die lijkt op een bestaand dataset. In tegenstelling tot discriminatieve modellen, die classificaties maken of voorspellingen doen op basis van gegeven data, kunnen generatieve modellen nieuwe inhoud produceren. Generatieve AI kan worden toegepast op tekst, afbeeldingen en complexe data structuren.
Voor data-analyse kan generatieve AI realistische datasets synthetiseren voor het trainen van modellen, ontbrekende datapunten invullen en zelfs bijdragen aan het genereren van analytische rapporten. Zijn vermogen om datapatronen te begrijpen en na te bootsen, maakt het een krachtige motor.
Hoe PandasAI Generatieve AI gebruikt voor Data Cleaning
PandasAI gebruikt generatieve AI om de data-schoonmaakproces te automatiseren en te verbeteren. In plaats van fouten handmatig te identificeren en te corrigeren, kunt u natuurlijke taalprompts gebruiken om de AI te instrueren om uw data schoon te maken.
U kunt bijvoorbeeld vragen om “dubbele vermeldingen te verwijderen” of “ontbrekende waarden in te vullen” en de AI-engine zal een gereinigd dataset genereren, waardoor u waardevolle tijd en moeite bespaart.
Laten we een gegevensframe maken met enkele ontbrekende waarden:
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
Now, we can prompt to get clean preprocessed data with the following code:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
The output is shown below. You can see that the data has been cleaned.
Feature Engineering met behulp van Generatieve AI
Het handmatig creëren van nieuwe features in een dataset kan een vervelende taak zijn. U kunt de AI-engine instrueren om nieuwe features te genereren op basis van bestaande data kolommen.
Bijvoorbeeld, met het volgende codefragment kun je gemakkelijk nieuwe gegevensattributen creëren, waardoor de omvang en kwaliteit van je gegevensanalyse aanzienlijk wordt verbeterd.
response = pandas_ai.run(df, "Create new features from this data")
print(response)
You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!
Intelligent Data Visualization Through Generative AI
PandasAI verbetert data visualisatie door gebruik te maken van generatieve AI om de meest passende visuele representaties voor je dataset aan te raden. In plaats van te puzzelen over welke grafiek of grafiek te gebruiken, kun je aangepaste suggesties krijgen die je helpen het meeste uit je gegevens te halen.
Bijvoorbeeld:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
Je kunt in de onderstaande output zien dat de gegevens op de manier zijn geïllustreerd die de AI-engine als beste beschouwt.
Real-Life Use Case: Generative AI in Financial Forecasting
Laten we een echt gebruiksvoorbeeld van PandasAI bekijken. Het kan niet alleen verder gaan dan het analyseren van voorbije aandelenkoersgegevens; het kan toekomstige scenario’s simuleren op basis van markttrends, bedrijfsprestaties en wereldwijde gebeurtenissen.
We kunnen generatieve modellen gebruiken om een reeks mogelijke toekomstige aandelenkoersen te creëren, rekening houdend met volatiliteit en andere marktindicatoren. Deze uitgebreide, voorwaarts kijkende aanpak stelt investeerders en analisten in staat om beter voor te bereiden op financiële uitkomsten, waardoor generatieve AI een onschatbare hulpbron is bij financiële voorspellingen.
Pandas vs. PandasAI: The Generative AI Edge
Hoewel Pandas een bekende bibliotheek is die velen gebruiken voor gegevensmanipulatie en analyse, gaat PandasAI verder door generatieve AI-mogelijkheden te integreren. Met traditioneel Pandas zou je code schrijven om gegevens te filteren, te transformeren en te visualiseren, maar je bent beperkt tot de gegevens die je al hebt.
PandasAI, aan de andere kant, kan nieuwe inzichten en visualisaties genereren en zelfs gegevens manipuleren op basis van natuurlijke taalprompts. Het generatieve AI-engine kan analyses bieden die moeilijk handmatig te coderen zijn. Stel je voor dat je je gegevens vraagt: “Wat is het potentieel omzet voor het volgende kwartaal?” en een gegenereerde rapportage als antwoord ontvangt — dit is de kracht van PandasAI.
Let op: We hebben verschillende prompts bekeken die PandasAI accepteert. Als je je creatieve prompts probeert, een kleine waarschuwing dat sommige fouten kunnen geven. Hier is een link naar een nuttig draadje voor het debuggen van dat probleem: Crash “Ongeldig invoergegevens. Moet een Pandas of Polars gegevensframe zijn” bij de “rij” vraag.
Conclusie
PandasAI is niet alleen een ander gegevensmanipulatietool; het is een belangrijke stap in gegevensanalyse dankzij zijn generatieve AI-mogelijkheden. Het gaat voorbij aan de beperkingen van traditionele analyseframeworks door niet alleen met uw gegevens te werken, maar het te begrijpen om nieuwe inzichten te genereren.
Van het aanvullen van hiaten in datasets tot het voorspellen van financiële markten, de mogelijkheden zijn eindeloos. Terwijl we ons bewegen naar een toekomst waar gegevens steeds complexer worden, wordt de mogelijkheid om zinvolle inzichten uit te genereren cruciaal. PandasAI biedt een blik op die toekomst, een kans die je zult willen verkennen.
Extra Bronnen
- Een ander interessante tutorial over PandasAI: PandasAI-bibliotheek van OpenAI
- De officiële documentatie: PandasAI
Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan