Pandas
-
Ollama + SingleStore – LangChain = :-(
Em um artigo anterior, utilizamos Ollama com LangChain e SingleStore. LangChain forneceu uma solução eficiente e compacta para a integração de Ollama com SingleStore. No entanto, e se dessemos a LangChain? Neste artigo, demonstraremos um exemplo de uso de Ollama com SingleStore sem depender do LangChain. Veremos que, embora possamos alcançar os mesmos resultados descritos no artigo anterior, o número de linhas de código aumenta, exigindo que gerencemos mais da infraestrutura que o LangChain normalmente lida. O arquivo de notebook…
-
Data Warehouse para Data Science: Adotando o Arrow Flight SQL para Transferência de Dados 10X
Ao longo dos anos, JDBC e ODBC tornaram-se normas amplamente adotadas para interação com bancos de dados. Agora, enquanto observamos a vastidão do universo dos dados, o surgimento da ciência de dados e a análise de data lakes trouxeram conjuntos de dados cada vez maiores. Consequentemente, precisamos de leitura e transmissão de dados cada vez mais rápidas, então começamos a buscar respostas melhores do que JDBC e ODBC. Dessa forma, incluímos o protocolo Arrow Flight SQL em Apache Doris 2.1,…
-
Realizando Análise Avançada de Dados de Eventos do Facebook com uma Base de Dados Vetorial
No dia de hoje, na era digital, profissionais de todas as indústrias precisam se manter atualizados com eventos, conferências e workshops que estão por vir. No entanto, encontrar eventos que se alinhem com os interesses de alguém diante do vasto oceano de informações online representa um desafio significativo. Este blog apresenta uma solução inovadora para esse desafio: um aplicativo abrangente projetado para coletar dados de eventos do Facebook e analisar esses dados coletados usando MyScale. Embora MyScale seja comumente associado…
-
Utilizando IA Generativa em Análise de Dados com PandasAI
Gostaria de que seus dados se analisassem sozinhos? Bem, estamos um passo mais perto desse dia. PandasAI é uma ferramenta inovadora que simplifica significativamente a análise de dados. Esta biblioteca Python amplia as capacidades da popular biblioteca Pandas com a ajuda de IA generativa, tornando a análise de dados automatizada e sofisticada uma realidade. Aplicando modelos gerativos como o GPT-3.5 da OpenAI, o PandasAI consegue entender e responder a consultas humanas, executar manipulações de dados complexas e gerar representações visuais.…
-
ClickHouse: Funções de Janela do Zero
ClickHouse é um sistema de gerenciamento de banco de dados altamente escalável, orientado a colunas e relacional, otimizado para cargas de trabalho analíticas. É um produto de código aberto desenvolvido pela Yandex, uma empresa de mecanismo de busca. Uma das principais características do ClickHouse é seu suporte a funções analíticas avançadas, incluindo funções de janela. As funções de janela foram introduzidas pela primeira vez no final dos anos 90 pelo SQL Server e, desde então, tornaram-se uma característica padrão em…
-
Como Usar o dropna() do pandas em Python para Remover Valores NA de um DataFrame
Introdução Neste tutorial, você aprenderá como usar a função dropna() do DataFrame do pandas. Os valores NA significam “Não Disponível”. Isso pode se aplicar a Null, None, pandas.NaT, ou numpy.nan. Usar dropna() irá eliminar as linhas e colunas com esses valores. Isso pode ser benéfico para fornecer apenas dados válidos. Por padrão, esta função retorna um novo DataFrame e o DataFrame de origem permanece inalterado. Este tutorial foi verificado com Python 3.10.9, pandas 1.5.2 e NumPy 1.24.1. Sintaxe A função…
-
Filtragem de Dados Parquet com Pandas
Ao lidar com a filtragem de dados a partir de arquivos Parquet usando o pandas, diversas estratégias podem ser adotadas. Embora seja amplamente reconhecido que a partição de dados pode melhorar significativamente a eficiência das operações de filtragem, existem outras técnicas para otimizar o desempenho de consultas em dados armazenados em arquivos Parquet. A partição é apenas uma das opções. Filtragem por Campos Particionados Como mencionado anteriormente, essa abordagem não apenas é a mais familiar, mas também geralmente é a…
-
Visualize Dados em Tempo Real com Python, Dash e RisingWave
Dados em tempo real são importantes para as empresas tomarem decisões rápidas. Visualizar esses dados pode ajudar a tomar decisões ainda mais rapidamente. Podemos criar representações visuais de dados usando várias aplicações de dados ou painéis. Dash é uma biblioteca Python de código aberto que fornece uma ampla gama de componentes integrados para criar gráficos interativos, tabelas, gráficos e outros elementos de IU. RisingWave é um banco de dados de streaming baseado em SQL para processamentos de dados em tempo…
-
Como Usar o Pandas e o Matplotlib para Realizar a EDA em Python
A Análise Exploratória de Dados (EDA) é uma etapa essencial em qualquer projeto de ciência de dados, pois nos permite entender os dados, detectar padrões e identificar potenciais problemas. Neste artigo, exploraremos como usar duas bibliotecas populares do Python, Pandas e Matplotlib, para realizar a EDA. Pandas é uma biblioteca poderosa para manipulação e análise de dados, enquanto Matplotlib é uma biblioteca versátil para visualização de dados. Abordaremos os conceitos básicos de carregamento de dados em um DataFrame do pandas,…