Pandas
-
Ollama + SingleStore – LangChain = :-(
En un artículo previo, utilizamos Ollama con LangChain y SingleStore. LangChain proporcionó una solución eficiente y compacta para integrar Ollama con SingleStore. Sin embargo, ¿qué pasaría si elimináramos LangChain? En este artículo, demostraremos un ejemplo de uso de Ollama con SingleStore sin dependencia de LangChain. Veremos que aunque podemos obtener los mismos resultados descritos en el artículo previo, el número de código aumenta, requiriéndonos que manejemos más de la instalación que normalmente maneja LangChain. El archivo de notebook utilizado en…
-
Almacén de Datos para Ciencia de Datos: Adoptando Arrow Flight SQL para Transferencia de Datos 10X
Durante años, JDBC y ODBC han sido normas comúnmente adoptadas para la interacción con bases de datos. Ahora, al contemplar la vasta extensión del ámbito de los datos, el auge de la ciencia de datos y el análisis de data lakes trae conjuntos de datos cada vez más grandes. En consecuencia, necesitamos lecturas y transmisiones de datos cada vez más rápidas, por lo que comenzamos a buscar mejores respuestas que JDBC y ODBC. Por ello, incluimos el protocolo Arrow Flight…
-
Realizando un Análisis Avanzado de Datos de Eventos de Facebook con una Base de Datos Vectorial
En la actual era digital, los profesionales de todos los sectores deben mantenerse al día con los eventos venideros, conferencias y talleres. Sin embargo, encontrar de manera eficiente eventos que coincidan con los intereses de uno en medio del vasto océano de información en línea presenta un desafío significativo. Este blog presenta una solución innovadora a este desafío: una aplicación integral diseñada para raspar datos de eventos de Facebook y analizar los datos rastreados utilizando MyScale. Si bien MyScale está…
-
Utilizando IA Generativa en Análisis de Datos con PandasAI
¿Alguna vez has deseado que tus datos se analicen solos? Pues estamos un paso más cerca de ese día. PandasAI es una herramienta innovadora que simplifica significativamente el análisis de datos. Esta biblioteca de Python amplía las capacidades de la popular biblioteca Pandas con la ayuda de inteligencia generativa, haciendo realidad un análisis de datos automático pero sofisticado análisis de datos. Al aplicar modelos generativos como el GPT-3.5 de OpenAI, PandasAI puede entender y responder a consultas similares a las…
-
ClickHouse: Funciones de Windows desde Cero
ClickHouse es un sistema de gestión de bases de datos altamente escalable, orientada a columnas y relacional, optimizado para cargas de trabajo analíticas. Es un producto de código abierto desarrollado por Yandex, una compañía de motor de búsqueda. Una de las características clave de ClickHouse es su soporte para funciones analíticas avanzadas, incluyendo funciones de ventana. Las funciones de ventana se introdujeron por primera vez a fines de la década de 1990 por SQL Server, y desde entonces, se han…
-
Cómo usar dropna() de pandas en Python para eliminar valores NA de un DataFrame
Introducción En este tutorial, aprenderás cómo utilizar la función dropna() de DataFrame de pandas. Los valores NA son “No Disponibles”. Esto puede aplicarse a Null, None, pandas.NaT o numpy.nan. Al usar dropna(), se eliminarán las filas y columnas con estos valores. Esto puede ser beneficioso para proporcionarte solo datos válidos. Por defecto, esta función devuelve un nuevo DataFrame y el DataFrame fuente permanece sin cambios. Este tutorial fue verificado con Python 3.10.9, pandas 1.5.2 y NumPy 1.24.1. Sintaxis dropna() toma…
-
Filtrado de Datos en Parquet con Pandas
Al abordar la filtración de datos desde archivos Parquet utilizando pandas, se pueden emplear varias estrategias. Si bien es ampliamente reconocido que la particionamiento de datos puede mejorar significativamente la eficiencia de las operaciones de filtrado, existen métodos adicionales para optimizar el rendimiento de la consulta de datos almacenados en archivos Parquet. El particionamiento es solo una de las opciones. Filtrado por Campos Particionados Como se mencionó anteriormente, este enfoque no solo es el más familiar sino también típicamente el…
-
Visualizar Datos en Tiempo Real Con Python, Dash y RisingWave
La información en tiempo real es crucial para que las empresas tomen decisiones rápidas. Visualizar estos datos puede ayudar a tomar decisiones aún más rápidas. Podemos crear representaciones visuales de datos utilizando diversas aplicaciones de datos o paneles de control. Dash es una biblioteca de Python de código abierto que ofrece una amplia gama de componentes integrados para crear gráficos interactivos, tablas, gráficos y otros elementos de IU. RisingWave es una base de datos de transmisión basada en SQL para…
-
Cómo utilizar Pandas y Matplotlib para realizar EDA en Python
El Análisis Exploratorio de Datos (EDA) es un paso esencial en cualquier proyecto de ciencia de datos, ya que nos permite comprender los datos, detectar patrones e identificar posibles problemas. En este artículo, exploraremos cómo utilizar dos populares bibliotecas de Python, Pandas y Matplotlib, para realizar EDA. Pandas es una potente biblioteca para la manipulación y análisis de datos, mientras que Matplotlib es una biblioteca versátil para la visualización de datos. Cubriremos los fundamentos de cargar datos en un DataFrame…