Pandas
-
Ollama + SingleStore – LangChain = :-(
В преvious article, мы использовали Ollama с LangChain и SingleStore. LangChain предоставил эффективное и компактное решение для интеграции Ollama с SingleStore. Тем не менее, что, если бы мы удалили LangChain? В этой статье мы продемонстрируем пример использования Ollama с SingleStore без использования LangChain. Мы увидим, что хотя мы можем достичь тех же результатов, которые были описаны в предыдущей статье, количество кода увеличивается, требуя от нас управления большей частью подключения, которое обычно выполняет LangChain. Файл NOTEBOOK, используемый в этой статье, доступен…
-
Склад данных для наук о данных: внедрение Arrow Flight SQL для ускорения передачи данных в 10 раз
На протяжении многих лет JDBC и ODBC являлись общепринятыми стандартами для взаимодействия с базами данных. Теперь, глядя на обширное пространство данных, рост наук о данных и аналитики в data lake приводит к появлению все больших и больших наборов данных. Соответственно, нам требуется все более быстрое чтение и передача данных, поэтому мы начинаем искать лучшие решения, чем JDBC и ODBC. Таким образом, мы включаем протокол Arrow Flight SQL в Apache Doris 2.1, который обеспечивает ускорение передачи данных в десятки раз. Высокоскоростная…
-
Анализ расширенных данных событий Facebook с использованием векторной базы данных
В нашем цифровом веке профессионалы во всех отраслях должны быть в курсе предстоящих мероприятий, конференций и мастер-классов. Однако эффективно находить мероприятия, соответствующие интересам, среди огромного количества информации в интернете представляет собой серьезную проблему. В этом блоге представлено инновационное решение этой проблемы: комплексная программа, предназначенная для сбора данных о мероприятиях с Facebook и анализа собранных данных с использованием MyScale. Хотя MyScale обычно ассоциируется с технологической пачкой RAG или используется в качестве векторной базы данных, его возможности выходят за рамки этих областей.…
-
Использование генеративного ИИ в анализе данных с помощью PandasAI
Жалится ли вам, что ваши данные могли бы анализировать сами себя? Ну, мы приблизились к этому дню. PandasAI — это революционная инструментальная утилита, которая значительно упрощает процесс анализа данных. Этот Python-библиотечный пакет расширяет возможности популярной библиотеки Pandas с помощью генеративного ИИ, делая автоматизированный, но сложный анализ данных реальностью. Применяя генеративное моделирование, такое как GPT-3.5 от OpenAI, PandasAI может понимать и отвечать на человекоподобные запросы, выполнять сложные манипуляции с данными и создавать визуальные представления. Анализ данных и ИИ объединяются для создания…
-
ClickHouse: Функции Windows С нуля
ClickHouse — это высокомасштабируемая, столбцовая, реляционная система управления базами данных, оптимизированная для аналитических нагрузок. Это open-source продукт, разработанный компанией Yandex, известной как поисковая система. Одной из ключевых особенностей ClickHouse является поддержка продвинутых аналитических функций, включая функции окна. Функции окна были впервые введены в конце 1990-х годов в SQL Server и с тех пор стали стандартной функцией во многих реляционных базах данных, включая ClickHouse. В настоящее время функции окна являются неотъемлемым инструментом для аналитиков данных и разработчиков и широко используются во…
-
Как использовать dropna() в Python pandas для удаления значений NA из DataFrame
Введение В этом руководстве вы узнаете, как использовать функцию DataFrame dropna() библиотеки pandas. NA значения обозначают “Недоступно”. Это может относиться к Null, None, pandas.NaT или numpy.nan. Использование dropna() позволяет удалять строки и столбцы с этими значениями. Это может быть полезно, чтобы оставить только действительные данные. По умолчанию эта функция возвращает новый DataFrame, и исходный DataFrame остается неизменным. Этот учебник проверен с использованием Python 3.10.9, pandas 1.5.2 и NumPy 1.24.1. Синтаксис dropna() принимает следующие параметры: dropna(self, axis=0, how=”any”, thresh=None, subset=None, inplace=False)…
-
Фильтрация данных Parquet с помощью Pandas
При работе с фильтрацией данных из файлов Parquet с использованием pandas можно применять несколько стратегий. Хотя широко признано, что разбиение данных может значительно улучшить эффективность операций фильтрации, существуют дополнительные методы оптимизации производительности запросов к данным, хранящимся в файлах Parquet. Разбиение — это всего лишь один из вариантов. Фильтрация по разделенным полям Как уже упоминалось, этот подход не только наиболее знакомый, но и обычно оказывает наиболее значительное влияние на оптимизацию производительности. Причина этого проста. При использовании разбиения становится возможным избирательно исключать…
-
Визуализируйте данные в реальном времени с помощью Python, Dash и RisingWave
Реальные данные важны для бизнеса, чтобы принимать быстрые решения. Визуальное представление этих данных может помочь принимать решения еще быстрее. Мы можем создавать визуальные представления данных с использованием различных приложений или панелей мониторинга данных. Dash – это открытый исходный код библиотеки Python, которая предоставляет широкий спектр встроенных компонентов для создания интерактивных графиков, диаграмм, таблиц и других элементов пользовательского интерфейса. RisingWave – это основанная на SQL потоковая база данных для обработки реальных данных. В этой статье будет объяснено, как использовать Python, Dash…
-
Как использовать Pandas и Matplotlib для проведения EDA в Python
Исследовательский анализ данных (EDA) является важным этапом любого проекта по науке о данных, так как позволяет нам понять данные, обнаружить закономерности и выявить потенциальные проблемы. В этой статье мы рассмотрим, как использовать два популярных библиотеки Python, Pandas и Matplotlib, для проведения EDA. Pandas – это мощная библиотека для манипуляции и анализа данных, а Matplotlib – универсальная библиотека для визуализации данных. Мы рассмотрим основы загрузки данных в DataFrame pandas, исследования данных с помощью функций pandas, очистки данных и, наконец, визуализации данных…