PandasAI를 활용한 데이터 분석에서의 생성형 AI 활용

데이터가 스스로 분석되기를 바랐던 적이 있나요? 이제 그 날이 한 걸음 더 다가왔습니다. PandasAI는 데이터 분석을 획기적으로 간소화하는 혁신적인 도구입니다. 이 Python 라이브러리는 인기 있는 Pandas 라이브러리의 기능을 생성 AI의 도움으로 확장하여 자동화된 세련된 데이터 분석을 현실로 만들어냅니다.

OpenAI의 GPT-3.5와 같은 생성 모델을 적용함으로써 PandasAI는 인간과 유사한 쿼리에 이해하고 응답하며, 복잡한 데이터 조작을 실행하고, 시각적 표현을 생성할 수 있습니다. 데이터 분석과 AI가 결합하여 기업과 연구자에게 새로운 가능성을 열어주는 통찰력을 만들어냅니다.

이 튜토리얼에서는 이 강력한 라이브러리를 다양한 작업에 어떻게 사용하는지 살펴보겠습니다. 시작해보죠!

PandasAI 설정하기

PandasAI를 설정하려면 아래와 같이 pip install PandasAI를 실행해야 합니다:

pip install pandasai

OpenAI 모델과 상호 작용하려면 API 키가 필요합니다. OpenAI API 키가 없다면 OpenAI 플랫폼에서 계정을 등록하고 거기서 API 키를 생성할 수 있습니다. 다음 코드는 OpenAI를 사용하여 PandasAI 인스턴스를 초기화하는 데 도움이 됩니다:

Python

import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI

# Open AI 환경에 API 토큰 저장
# "YOUR_API_KEY"를 생성된 API 키로 교체
llm = OpenAI(api_token='YOUR_API_KEY')

# OpenAI 환경으로 Pandas AI 인스턴스 초기화
pandas_ai = PandasAI(llm, verbose=True, conversational=False)

생성 모델 AI: 간단한 개요

생성 모델 AI는 기존 데이터셋과 유사한 새로운 데이터를 생성하는 인공지능의 한 부분입니다. 주어진 데이터를 기반으로 분류하거나 예측하는 판별 모델과 달리, 생성 모델은 새로운 콘텐츠를 생성할 수 있습니다. 생성 모델 AI는 텍스트, 이미지 및 복잡한 데이터 구조에 적용될 수 있습니다.

데이터 분석을 위해, 생성 모델 AI는 모델 훈련을 위한 현실적인 데이터셋을 합성하고, 누락된 데이터 포인트를 채우며, 분석 보고서를 생성하는 데 도움을 줄 수 있습니다. 데이터 패턴을 이해하고 모방하는 능력으로 강력한 엔진이 될 수 있습니다.

PandasAI가 데이터 정제를 위해 생성 모델 AI 사용 방법

PandasAI는 생성 모델 AI를 사용하여 데이터 정제 프로세스를 자동화하고 강화합니다. 수동으로 오류를 식별하고 수정하는 대신, 자연어 프롬프트를 사용하여 AI에게 데이터를 정제하도록 지시할 수 있습니다.

예를 들어 “중복 항목 제거” 또는 “누락된 값 채우기”를 요청할 수 있으며, AI 엔진은 정제된 데이터셋을 생성하여 시간과 노력을 절약해 줍니다.

누락된 값이 있는 데이터 프레임을 만들어 보겠습니다.

Python

df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

Now, we can prompt to get clean preprocessed data with the following code:

Python

response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)

The output is shown below. You can see that the data has been cleaned.

생성 모델 AI의 도움으로 특성 엔지니어링

데이터셋에서 새로운 특성을 수동으로 생성하는 것은 지루한 작업일 수 있습니다. AI 엔진에게 기존 데이터 열을 기반으로 새로운 특성을 생성하도록 지시할 수 있습니다.

예를 들어, 다음 코드 스니펫을 사용하면 데이터 분석의 범위와 품질을 크게 향상시킬 수 있는 새로운 데이터 속성을 쉽게 생성할 수 있습니다.

Python

response = pandas_ai.run(df, "Create new features from this data")
print(response)

You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!

생성 AI를 통한 지능적인 데이터 시각화

PandasAI는 생성 AI를 사용하여 데이터 세트에 가장 적합한 시각적 표현을 추천함으로써 데이터 시각화를 개선합니다. 어떤 차트나 그래프를 사용해야 할지 고민하지 않고도 데이터를 최대한 활용할 수 있는 맞춤 제안을 받을 수 있습니다.

예를 들어:

Python

response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)

다음 출력에서 볼 수 있듯이 데이터가 AI 엔진이 가장 적합하다고 생각하는 방식으로 시각화되었습니다.

실제 사례: 금융 예측에서의 생성 AI

PandasAI의 실제 사례를 살펴보겠습니다. 과거 주가 데이터 분석을 넘어서 시장 추세, 기업 성과 및 글로벌 이벤트를 기반으로 미래 시나리오를 시뮬레이션할 수 있습니다.

우리는 변동성 및 기타 시장 지표를 고려하여 가능한 미래 주가의 범위를 생성할 수 있는 생성 모델을 사용할 수 있습니다. 이러한 전방 전략은 투자자와 분석가가 금융 결과를 더 잘 준비할 수 있도록 합니다. 따라서 생성 AI는 금융 예측에서 귀중한 자산이 됩니다.

Pandas vs. PandasAI: 생성 AI의 강점

Pandas는 데이터 조작 및 분석을 위해 많은 사람들이 사용하는 잘 알려진 라이브러리이지만, PandasAI는 생성 AI 기능을 통합하여 더 나아갑니다. 기존의 Pandas를 사용하면 데이터를 필터링, 변환 및 시각화하기 위해 코드를 작성할 수 있지만 이미 가지고 있는 데이터에 제한됩니다.

반면에 PandasAI는 자연어 프롬프트를 기반으로 새로운 인사이트와 시각화를 생성하고 데이터를 조작할 수 있습니다. 생성형 AI 엔진은 수동으로 코딩하기 어려울 수 있는 분석을 제공할 수 있습니다. 데이터에 “다음 분기의 잠재 수익은 얼마인가?”라고 묻고 생성된 보고서를 답변으로 받는다고 상상해보십시오. 이것이 PandasAI의 힘입니다.

참고: PandasAI가 수락하는 다양한 프롬프트에 대해 살펴보았습니다. 창의적인 프롬프트를 시도해보신다면 일부는 오류를 발생시킬 수 있다는 작은 경고입니다. 이 문제를 디버깅하는 데 도움이 되는 링크입니다: Crash “Invalid input data. Must be a Pandas or Polars data frame” on the “row” question.

결론

PandasAI는 단순한 데이터 조작 도구가 아닙니다. 생성형 AI 기능 덕분에 데이터 분석에 있어 엄청난 도약입니다. 기존 분석 프레임워크의 한계를 뛰어넘어 데이터와 함께 작업하는 것뿐만 아니라 이해하고 새로운 인사이트를 생성합니다.

데이터 세트의 간격을 채우거나 금융 시장을 예측하는 등 가능성은 무한합니다. 데이터가 점점 복잡해지는 미래로 나아가면서 데이터에서 의미있는 인사이트를 생성하는 능력이 중요해집니다. PandasAI는 그러한 미래의 일瞥를 제공하며, 여러분이 탐색하고 싶어할 기회입니다.

추가 자료

Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan