Vous n’avez jamais souhaité que vos données s’analysent elles-mêmes? Eh bien, nous sommes un pas de plus vers ce jour-là. PandasAI est un outil révolutionnaire qui simplifie considérablement l’analyse des données. Cette bibliothèque Python étend les capacités de la populaire bibliothèque Pandas avec l’aide de intelligence artificielle générative, rendant une analyse des données automatisée et sophistiquée une réalité.
En appliquant des modèles génératifs comme celui de GPT-3.5 d’OpenAI, PandasAI peut comprendre et répondre à des requêtes similaires à celles d’un humain, exécuter des manipulations de données complexes et générer des représentations visuelles. L’analyse des données et l’IA se combinent pour créer des insights qui ouvrent de nouvelles perspectives pour les entreprises et les chercheurs.
Ce tutoriel explorera comment utiliser cette puissante bibliothèque pour diverses tâches. Commençons!
Configuration de PandasAI
Pour configurer PandasAI, nous devons installer PandasAI via pip, comme indiqué ci-dessous:
pip install pandasai
Pour interagir avec les modèles d’OpenAI, vous aurez besoin d’une clé API. Si vous n’avez pas de clé API OpenAI, vous pouvez vous inscrire sur la plateforme OpenAI et générer votre clé API là-bas. Le code suivant aide à initialiser une instance de PandasAI avec OpenAI:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# stocker le jeton API dans l'environnement Open AI
# remplacer "YOUR_API_KEY" par votre clé API générée
llm = OpenAI(api_token='YOUR_API_KEY')
# initialisation d'une instance de Pandas AI avec l'environnement openAI
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
Intelligence Artificielle Générative : Aperçu succinct
L’Intelligence Artificielle Générative est un sous-ensemble de l’intelligence artificielle qui crée de nouvelles données similaires à un ensemble de données existant. Contrairement aux modèles discriminants, qui classifient ou font des prédictions en fonction des données données, les modèles génératifs peuvent produire du nouveau contenu. L’Intelligence Artificielle Générative peut être appliquée à du texte, des images et des structures de données complexes.
Pour l’analyse des données, l’Intelligence Artificielle Générative peut synthétiser des ensembles de données réalistes pour l’entraînement des modèles, combler les points de données manquants et même aider à générer des rapports analytiques. Sa capacité à comprendre et à imiter les modèles de données en fait un moteur puissant.
Comment PandasAI utilise l’Intelligence Artificielle Générative pour le nettoyage des données
PandasAI utilise l’Intelligence Artificielle Générative pour automatiser et améliorer le processus de nettoyage des données. Plutôt que d’identifier et de corriger manuellement les erreurs, vous pouvez utiliser des prompts de langage naturel pour instruire l’IA de nettoyer vos données.
Par exemple, vous pouvez lui demander de « supprimer les entrées en double » ou de « remplir les valeurs manquantes », et le moteur d’IA générera un ensemble de données nettoyé, vous faisant gagner du temps et des efforts précieux.
Créons un cadre de données avec des valeurs manquantes :
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
Now, we can prompt to get clean preprocessed data with the following code:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
The output is shown below. You can see that the data has been cleaned.
Ingénierie des caractéristiques avec l’aide de l’Intelligence Artificielle Générative
Créer de nouvelles caractéristiques manuellement dans un ensemble de données peut être une tâche fastidieuse. Vous pouvez instruire le moteur d’IA de générer de nouvelles caractéristiques en fonction des colonnes de données existantes.
Par exemple, avec le code suivant, vous pouvez créer facilement de nouveaux attributs de données, ce qui augmente considérablement la portée et la qualité de votre analyse de données.
response = pandas_ai.run(df, "Create new features from this data")
print(response)
You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!
Visualisation de données intelligentes grâce à l’IA générative
PandasAI améliore la visualisation des données en utilisant l’IA générative pour recommander les représentations visuelles les plus appropriées pour votre ensemble de données. Au lieu de se demander quel graphique ou quelle courbe à utiliser, vous pouvez obtenir des suggestions personnalisées qui vous aident à tirer le meilleur parti de vos données.
Par exemple:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
Vous pouvez voir dans la sortie ci-dessous que les données ont été visualisées de la manière que l’intelligence artificielle pense être la meilleure.
Cas d’utilisation réel : L’IA générative dans la prévision financière
Examinons un cas d’utilisation réel de PandasAI. Il peut aller au-delà de l’analyse des données historiques sur les cours des actions ; il peut simuler des scénarios futurs en fonction des tendances du marché, des performances de l’entreprise et des événements mondiaux.
Nous pouvons utiliser des modèles génératifs pour créer une gamme de cours d’actions futurs possibles, en tenant compte de la volatilité et d’autres indicateurs du marché. Cette approche globale et orientée vers l’avenir permet aux investisseurs et aux analystes de mieux se préparer aux résultats financiers, faisant de l’IA générative un atout inestimable dans la prévision financière.
Pandas vs. PandasAI : L’avantage de l’IA générative
Bien que Pandas soit une bibliothèque bien connue utilisée par de nombreuses personnes pour la manipulation et l’analyse des données, PandasAI va plus loin en intégrant des capacités d’IA générative. Avec le Pandas traditionnel, vous pourriez écrire du code pour filtrer, transformer et visualiser les données, mais vous êtes limité aux données que vous possédez déjà.
PandasAI, d’autre part, peut générer de nouvelles informations et visualisations, et même manipuler les données en fonction de promts en langage naturel. Le moteur d’intelligence artificielle générative peut fournir des analyses qui seraient difficiles à coder manuellement. Imaginez demander à vos données : « Quel est le potentiel de revenus pour le prochain trimestre ? » et recevoir un rapport généré en réponse — c’est le pouvoir de PandasAI.
Remarque : Nous avons examiné divers promts que PandasAI accepte. Si vous essayez de créer vos propres promts, un petit avertissement : certains peuvent générer des erreurs. Voici un lien vers un fil d’aide pour déboguer ce problème : Crash « Données d’entrée non valides. Doit être un cadre de données Pandas ou Polars » sur la question « ligne ».
Conclusion
PandasAI n’est pas seulement un autre outil de manipulation de données ; c’est un bond monumental dans l’analyse des données grâce à ses capacités d’intelligence artificielle générative. Il dépasse les limitations des cadres d’analyse traditionnels en ne travaillant pas seulement avec vos données mais en les comprenant pour générer de nouvelles informations.
De combler les lacunes dans les ensembles de données à prévoir les marchés financiers, les possibilités sont infinies. Alors que nous nous dirigeons vers un avenir où les données deviennent de plus en plus complexes, la capacité de générer des informations significatives à partir d’elles devient cruciale. PandasAI donne un aperçu de cet avenir, une opportunité que vous voudrez explorer.
Ressources supplémentaires
- Un autre tutoriel intéressant sur PandasAI : Bibliothèque PandasAI d’OpenAI
- La documentation officielle : PandasAI
Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan