Já sonhou que seus dados se analisassem sozinhos? Bem, estamos um passo mais perto desse dia. PandasAI é uma ferramenta inovadora que simplifica significativamente a análise de dados. Esta biblioteca Python amplia as capacidades da popular biblioteca Pandas com a ajuda de inteligência artificial generativa, tornando a análise de dados automatizada e sofisticada uma realidade.
Ao aplicar modelos gerativos como o GPT-3.5 da OpenAI, o PandasAI pode compreender e responder a consultas humanas, executar manipulações de dados complexas e gerar representações visuais. A análise de dados e a IA se unem para criar insights que abrem novos caminhos para empresas e pesquisadores.
Este tutorial explorará como usar esta poderosa biblioteca para várias tarefas. Vamos começar!
Configurando o PandasAI
Para configurar o PandasAI, precisaremos instalar o PandasAI via pip, como mostrado abaixo:
pip install pandasai
Para interagir com os modelos da OpenAI, você precisará de uma chave de API. Se você não tiver uma chave de API da OpenAI, poderá se inscrever em uma conta no plataforma da OpenAI e gerar sua chave de API lá. O código a seguir ajuda a inicializar uma instância do PandasAI com a OpenAI:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# Armazenando o Token da API no ambiente Open AI
# Substitua "YOUR_API_KEY" pela sua chave de API gerada
llm = OpenAI(api_token='YOUR_API_KEY')
# Inicializando uma instância de Pandas AI com o ambiente openAI
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
IA Generativa: Uma Breve Visão Geral
IA Generativa é um subconjunto de inteligência artificial que cria novos dados semelhantes a um conjunto de dados existente. Ao contrário dos modelos discriminativos, que classificam ou fazem previsões com base em dados fornecidos, os modelos gerativos podem produzir novo conteúdo. A IA generativa pode ser aplicada a textos, imagens e estruturas de dados complexas.
Para análise de dados, a IA generativa pode sintetizar conjuntos de dados realistas para treinar modelos, preencher pontos de dados ausentes e até auxiliar na geração de relatórios analíticos. Sua capacidade de entender e imitar padrões de dados a torna um motor poderoso.
Como PandasAI Usa IA Generativa para Limpeza de Dados
PandasAI usa IA generativa para automatizar e aprimorar o processo de limpeza de dados. Em vez de identificar e corrigir erros manualmente, você pode usar prompts de linguagem natural para instruir a IA a limpar seus dados.
Por exemplo, você pode pedir para “remover entradas duplicadas” ou “preencher valores ausentes”, e o motor de IA gerará um conjunto de dados limpo, economizando tempo e esforço valiosos.
Vamos criar um quadro de dados com alguns valores ausentes:
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
Now, we can prompt to get clean preprocessed data with the following code:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
The output is shown below. You can see that the data has been cleaned.
Engenharia de Recursos com a Ajuda da IA Generativa
Criar novos recursos manualmente em um conjunto de dados pode ser uma tarefa tediosa. Você pode instruir o motor de IA a gerar novos recursos com base em colunas de dados existentes.
Por exemplo, com o seguinte trecho de código, você pode criar facilmente novos atributos de dados, significativamente ampliando o escopo e a qualidade da sua análise de dados.
response = pandas_ai.run(df, "Create new features from this data")
print(response)
You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!
Visualização Inteligente de Dados Através da IA Generativa
PandasAI melhora a visualização de dados ao usar IA generativa para recomendar as representações visuais mais adequadas para o seu conjunto de dados. Em vez de se perder em escolher que gráfico ou diagrama usar, você pode obter sugestões personalizadas que ajudam a aproveitar ao máximo seus dados.
Por exemplo:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
Você pode ver na saída abaixo que os dados foram visualizados da maneira que o motor de IA acha melhor.
Caso de Uso Real: IA Generativa em Previsão Financeira
Vejamos um caso de uso real de PandasAI. Ele pode ir além de apenas analisar dados passados de preços de ações; pode simular cenários futuros com base em tendências de mercado, desempenho da empresa e eventos globais.
Podemos usar modelos gerativos para criar uma gama de possíveis preços futuros de ações, considerando volatilidade e outros indicadores de mercado. Essa abordagem abrangente e voltada para o futuro permite que investidores e analistas se preparem melhor para resultados financeiros, tornando a IA generativa um ativo inestimável na previsão financeira.
Pandas vs. PandasAI: A Vantagem da IA Generativa
Embora o Pandas seja uma biblioteca bem conhecida que muitas pessoas usam para manipulação e análise de dados, o PandasAI vai além, integrando capacidades de IA generativa. Com o Pandas tradicional, você pode escrever código para filtrar, transformar e visualizar dados, mas está restrito aos dados que já possui.
PandasAI, por outro lado, pode gerar novas insights e visualizações e até manipular dados com base em prompts de linguagem natural. O motor de IA generativa pode fornecer análises que seriam difíceis de codificar manualmente. Imagine perguntar ao seu dado: “Qual é a receita potencial para o próximo trimestre?” e receber um relatório gerado como resposta — esta é a força do PandasAI.
Nota: Revimos vários prompts que o PandasAI aceita. Se você experimentar seus prompts criativos, apenas um aviso de que alguns podem gerar erros. Aqui está um link para uma thread útil para depurar esse problema: Falha “Dados de entrada inválidos. Deve ser um quadro de dados Pandas ou Polars” na pergunta “linha”.
Conclusão
PandasAI não é apenas mais uma ferramenta de manipulação de dados; é um passo monumental na análise de dados graças às suas capacidades de IA generativa. Ele transcende as limitações dos frameworks de análise tradicionais, não apenas trabalhando com seus dados, mas entendendo-os para gerar novos insights.
Desde preencher lacunas em conjuntos de dados até prever mercados financeiros, as possibilidades são infinitas. À medida que avançamos para um futuro onde os dados são cada vez mais complexos, a capacidade de gerar insights significativos a partir deles se torna crucial. O PandasAI oferece um vislumbre desse futuro, uma oportunidade que você desejará explorar.
Recursos Adicionais
- Outro tutorial interessante sobre o PandasAI: Biblioteca PandasAI da OpenAI
- A documentação oficial: PandasAI
Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan