¿Alguna vez has deseado que tus datos se analicen solos? Pues estamos un paso más cerca de ese día. PandasAI es una herramienta innovadora que simplifica significativamente el análisis de datos. Esta biblioteca de Python amplía las capacidades de la popular biblioteca Pandas con la ayuda de inteligencia generativa, haciendo realidad un análisis de datos automático pero sofisticado análisis de datos.
Al aplicar modelos generativos como el GPT-3.5 de OpenAI, PandasAI puede entender y responder a consultas similares a las humanas, ejecutar manipulaciones de datos complejas y generar representaciones visuales. El análisis de datos y la IA se combinan para crear percepciones que abren nuevas vías para las empresas y los investigadores.
Este tutorial explorará cómo utilizar esta poderosa biblioteca para diversas tareas. ¡Empecemos!
Configuración de PandasAI
Para configurar PandasAI, necesitaremos instalar PandasAI mediante pip como se muestra a continuación:
pip install pandasai
Para interactuar con los modelos de OpenAI, necesitarás una clave API. Si no tienes una clave API de OpenAI, puedes registrarte en la plataforma de OpenAI y generar tu clave API allí. El siguiente código ayuda a inicializar una instancia de PandasAI con OpenAI:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# Almacenando el Token de API en el entorno de Open AI
# reemplazar "YOUR_API_KEY" con tu clave de API generada
llm = OpenAI(api_token='YOUR_API_KEY')
# inicializando una instancia de Pandas AI con el entorno de OpenAI
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
IA Generativa: Una Breve Introducción
La IA generativa es un subconjunto de la inteligencia artificial que crea nuevos datos similares a un conjunto de datos existente. A diferencia de los modelos discriminatorios, que clasifican o realizan predicciones basadas en datos dados, los modelos generativos pueden producir nuevo contenido. La IA generativa puede aplicarse a texto, imágenes y estructuras de datos complejas.
Para el análisis de datos, la IA generativa puede sintetizar conjuntos de datos realistas para entrenar modelos, llenar puntos de datos faltantes e incluso ayudar en la generación de informes analíticos. Su capacidad para entender y imitar patrones de datos la convierte en un motor poderoso.
Cómo PandasAI Utiliza la IA Generativa para Limpiar Datos
PandasAI utiliza la IA generativa para automatizar y mejorar el proceso de limpieza de datos. En lugar de identificar y corregir errores manualmente, puedes usar prompts de lenguaje natural para instruir a la IA para que limpie tus datos.
Por ejemplo, puedes pedirle que “elimine entradas duplicadas” o “llene valores faltantes”, y el motor de IA generará un conjunto de datos limpio, ahorrándote tiempo y esfuerzo valiosos.
Creemos un marco de datos con algunos valores faltantes:
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
Now, we can prompt to get clean preprocessed data with the following code:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
The output is shown below. You can see that the data has been cleaned.
Ingeniería de Características con la Ayuda de la IA Generativa
Crear nuevas características manualmente en un conjunto de datos puede ser una tarea tediosa. Puedes instruir al motor de IA para que genere nuevas características basadas en columnas de datos existentes.
Por ejemplo, con el siguiente fragmento de código, puedes crear fácilmente nuevos atributos de datos, lo que aumenta significativamente el alcance y la calidad de tu análisis de datos.
response = pandas_ai.run(df, "Create new features from this data")
print(response)
You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!
Visualización Inteligente de Datos a Través de IA Generativa
PandasAI mejora la visualización de datos al utilizar IA generativa para recomendar las representaciones visuales más adecuadas para tu conjunto de datos. En lugar de preocuparte por qué gráfico o gráfica utilizar, puedes obtener sugerencias personalizadas que te ayuden a sacar el máximo partido de tus datos.
Por ejemplo:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
Puedes ver en la salida a continuación que los datos se han visualizado de la manera en que el motor de inteligencia artificial considera que es mejor.
Caso de Uso Real: IA Generativa en Pronósticos Financieros
Veamos un caso de uso real de PandasAI. Puede ir más allá de simplemente analizar los datos de precios de acciones pasados; puede simular escenarios futuros basados en tendencias del mercado, rendimiento de la empresa y eventos globales.
Podemos utilizar modelos generativos para crear una gama de posibles precios futuros de las acciones, considerando la volatilidad y otros indicadores del mercado. Este enfoque integral y orientado hacia el futuro permite a los inversores y analistas prepararse mejor para los resultados financieros, haciendo de la IA generativa un activo invaluable en los pronósticos financieros.
Pandas vs. PandasAI: La Ventaja de la IA Generativa
Si bien Pandas es una biblioteca bien conocida que mucha gente utiliza para la manipulación y el análisis de datos, PandasAI lo lleva más allá al integrar capacidades de IA generativa. Con el Pandas tradicional, podrías escribir código para filtrar, transformar y visualizar datos, pero estás limitado a los datos que ya tienes.
PandasAI, por otro lado, puede generar nuevos insights y visualizaciones, e incluso manipular datos en base a prompts de lenguaje natural. El motor de IA generativa puede proporcionar análisis que serían difíciles de codificar manualmente. Imagina preguntarle a tus datos: “¿Cuál es el potencial de ingresos para el próximo trimestre?” y recibir un informe generado como respuesta; esta es la potencia de PandasAI.
Nota: Hemos repasado varios prompts que acepta PandasAI. Si intentas tus prompts creativos, solo un pequeño aviso de que algunos pueden generar errores. Aquí tienes un enlace a un hilo útil para depurar ese problema: Crash “Invalid input data. Must be a Pandas or Polars data frame” on the “row” question.
Conclusión
PandasAI no es solo otra herramienta de manipulación de datos; es un paso monumental en el análisis de datos gracias a sus capacidades de IA generativa. Supera las limitaciones de los marcos de análisis tradicionales al no solo trabajar con tus datos sino también entendiendo para generar nuevos insights.
Desde llenar huecos en conjuntos de datos hasta pronosticar mercados financieros, las posibilidades son infinitas. A medida que avanzamos hacia un futuro donde los datos son cada vez más complejos, la capacidad de generar insights significativos a partir de ellos se vuelve crucial. PandasAI ofrece un vistazo a ese futuro, una oportunidad que querrás explorar.
Recursos Adicionales
- Otro tutorial interesante sobre PandasAI: Biblioteca de PandasAI de OpenAI
- La documentación oficial: PandasAI
Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan