Жалится ли вам, что ваши данные могли бы анализировать сами себя? Ну, мы приблизились к этому дню. PandasAI — это революционная инструментальная утилита, которая значительно упрощает процесс анализа данных. Этот Python-библиотечный пакет расширяет возможности популярной библиотеки Pandas с помощью генеративного ИИ, делая автоматизированный, но сложный анализ данных реальностью.
Применяя генеративное моделирование, такое как GPT-3.5 от OpenAI, PandasAI может понимать и отвечать на человекоподобные запросы, выполнять сложные манипуляции с данными и создавать визуальные представления. Анализ данных и ИИ объединяются для создания новых возможностей для бизнеса и исследователей.
В этом руководстве мы рассмотрим, как использовать эту мощную библиотеку для различных задач. Приступим!
Настройка PandasAI
Для настройки PandasAI необходимо установить его с помощью pip, как показано ниже:
pip install pandasai
Для взаимодействия с моделями OpenAI вам понадобится ключ API. Если у вас нет ключа API OpenAI, вы можете зарегистрировать аккаунт на платформе OpenAI и сгенерировать свой ключ API там. Следующий код помогает инициализировать экземпляр PandasAI с OpenAI:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
# Хранение токена API в окружении Open AI
# замените "YOUR_API_KEY" на ваш сгенерированный API ключ
llm = OpenAI(api_token='YOUR_API_KEY')
# инициализация экземпляра Pandas AI с окружением OpenAI
pandas_ai = PandasAI(llm, verbose=True, conversational=False)
Генеративное ИИ: Краткое Описание
Генеративное ИИ – это подмножество искусственного интеллекта, которое создает новое данные, похожее на существующий набор данных. В отличие от дискриминативных моделей, которые классифицируют или делают прогнозы на основе предоставленных данных, генеративные модели могут создавать новое содержимое. Генеративное ИИ может быть применено к тексту, изображениям и сложным структурам данных.
Для анализа данных, генеративное ИИ может синтезировать реалистичные наборы данных для обучения моделей, заполнять пропущенные точки данных и даже помогать в генерации аналитических отчетов. Его способность понимать и имитировать паттерны данных делает его мощным двигателем.
Как PandasAI использует Генеративное ИИ для очистки данных
PandasAI использует генеративное ИИ для автоматизации и улучшения процесса очистки данных. Вместо ручной идентификации и исправления ошибок, вы можете использовать естественные языковые подсказки, чтобы инструктировать ИИ очистить ваши данные.
Например, вы можете попросить его “удалить дублирующие записи” или “заполнить пропущенные значения”, и движок ИИ создаст очищенный набор данных, экономя ваше драгоценное время и усилия.
Давайте создадим таблицу данных с некоторыми пропущенными значениями:
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", None, "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, None, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [None, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})
Now, we can prompt to get clean preprocessed data with the following code:
response = pandas_ai.run(df, "Preprocess this dataframe for me")
print(response)
The output is shown below. You can see that the data has been cleaned.
Инженерное дело с помощью Генеративного ИИ
Создание новых функций в наборе данных вручную может быть утомительной задачей. Вы можете инструктировать движок ИИ генерировать новые функции на основе существующих столбцов данных.
Например, с помощью следующего фрагмента кода вы можете легко создавать новые атрибуты данных, значительно расширяя область и качество вашего анализа данных.
response = pandas_ai.run(df, "Create new features from this data")
print(response)
You can see in the output below that the new feature created by AI is a happiness rank. AI put two and two together to understand that the countries could be ranked based on the happiness index and GDP per capita!
Интеллектуальное Визуализация Данных С Помощью Генеративного ИИ
PandasAI улучшает визуализацию данных, используя генеративный ИИ для рекомендации наиболее подходящих визуальных представлений для вашего набора данных. Вместо того чтобы ломать голову над выбором графика или диаграммы, вы можете получить персонализированные предложения, которые помогут вам максимально использовать ваши данные.
Например:
response = pandas_ai.run(df, "Which data visualization do you recommend for this data?")
print(response)
Как видно в выходных данных ниже, данные были визуализированы таким образом, каким считает лучшим движок ИИ.
Практический пример использования: Генеративный ИИ в финансовом прогнозировании
Рассмотрим практический пример использования PandasAI. Он может выйти за рамки простого анализа данных о прошлых ценах на акции; он может моделировать будущие сценарии на основе рыночных тенденций, результатов деятельности компании и глобальных событий.
Мы можем использовать генеративные модели для создания диапазона возможных будущих цен на акции, учитывая волатильность и другие рыночные индикаторы. Этот комплексный, ориентированный на будущее подход позволяет инвесторам и аналитикам лучше подготовиться к финансовым результатам, делая генеративный ИИ бесценным активом в финансовом прогнозировании.
Pandas против PandasAI: Преимущество Генеративного ИИ
Хотя Pandas является хорошо известным библиотекой, которую многие люди используют для манипуляции и анализа данных, PandasAI идет дальше, интегрируя возможности генеративного ИИ. С традиционным Pandas вы могли бы писать код для фильтрации, преобразования и визуализации данных, но вы ограничены данными, которые у вас уже есть.
PandasAI, с другой стороны, может генерировать новые идеи и визуализации, а также манипулировать данными на основе естественно-языковых запросов. Движок генеративного ИИ может предоставлять аналитику, которую было бы сложно написать вручную. Представьте, что вы спрашиваете свои данные: “Какой потенциальный доход в следующем квартале?” и получаете сгенерированный отчет в качестве ответа — вот сила PandasAI.
Примечание: Мы рассмотрели различные запросы, которые принимает PandasAI. Если вы попробуете свои креативные запросы, только предупреждение, что некоторые могут вызвать ошибки. Вот ссылка на полезную ветку для отладки этой проблемы: Сбой “Неверные входные данные. Должен быть фрейм данных Pandas или Polars” при запросе “строка”.
Заключение
PandasAI — это не просто еще один инструмент для манипуляции данными; это важный шаг в анализе данных благодаря возможностям генеративного ИИ. Он преодолевает ограничения традиционных аналитических фреймворков, работая не просто с вашими данными, но и понимая их для генерации новых идей.
От заполнения пробелов в наборах данных до прогнозирования финансовых рынков, возможности безграничны. Поскольку мы движемся к будущему, где данные становятся все более сложными, способность генерировать значимые идеи из них становится критически важной. PandasAI дает представление о том будущем, возможность, которую вы захотите изучить.
Дополнительные ресурсы
- Еще один интересный учебник по PandasAI: Библиотека PandasAI от OpenAI
- Официальная документация: PandasAI
Source:
https://dzone.com/articles/harnessing-generative-ai-in-data-analysis-with-pan