Pandas
-
Ollama + SingleStore – LangChain = :-(
Em um artigo anterior, nós usamos o Ollama com a LangChain e o SingleStore. A LangChain forneceu uma solução eficiente e compacta para integrar o Ollama com o SingleStore. No entanto, e se nós removermos a LangChain? Neste artigo, vamos demonstrar um exemplo de uso do Ollama com o SingleStore sem depender da LangChain. Vamos ver que, embora consigamos os mesmos resultados descritos no artigo anterior, o número de código aumenta, sendo necessário gerenciar mais das partes de instalação que…
-
Data Warehouse para Data Science: Adotando Arrow Flight SQL para Transferência de Dados 10X
Durante anos, JDBC e ODBC têm sido normas comumente adotadas para interação com banco de dados. Agora, ao olharmos para a vastidão do domínio dos dados, o surgimento da ciência de dados e análise em data lake traz conjuntos de dados cada vez maiores. Consequentemente, precisamos de leitura e transmissão de dados cada vez mais rápidas, então começamos a buscar respostas melhores do que JDBC e ODBC. Assim, incluímos o protocolo Arrow Flight SQL em Apache Doris 2.1, o que…
-
Realizando Análise Avançada de Dados de Eventos do Facebook com uma Base de Dados Vetorial
No atualidade digital, profissionais em todas as indústrias devem manter-se atualizados com eventos futuros, conferências e workshops. No entanto, encontrar eventos que se alinhem com os interesses de alguém diante do vasto oceano de informações online apresenta um desafio significativo. Este blog introduz uma solução inovadora para este desafio: um aplicativo abrangente projetado para raspar dados de eventos do Facebook e analisar os dados raspados usando MyScale. Embora o MyScale seja comumente associado à pilha de tecnologia RAG ou usado…
-
Utilizando IA Generativa em Análise de Dados com PandasAI
Já sonhou que seus dados se analisassem sozinhos? Bem, estamos um passo mais perto desse dia. PandasAI é uma ferramenta inovadora que simplifica significativamente a análise de dados. Esta biblioteca Python amplia as capacidades da popular biblioteca Pandas com a ajuda de inteligência artificial generativa, tornando a análise de dados automatizada e sofisticada uma realidade. Ao aplicar modelos gerativos como o GPT-3.5 da OpenAI, o PandasAI pode compreender e responder a consultas humanas, executar manipulações de dados complexas e gerar…
-
ClickHouse: Funções de Janela do Zero
ClickHouse é um sistema de gerenciamento de banco de dados altamente escalável, orientado a colunas, otimizado para cargas de trabalho analíticas. É um produto de código aberto desenvolvido pela Yandex, uma empresa de mecanismo de busca. Uma das principais características do ClickHouse é o suporte para funções analíticas avançadas, incluindo funções de janela. As funções de janela foram introduzidas pela primeira vez no final dos anos 90 pelo SQL Server, e desde então, tornaram-se uma característica padrão em muitos bancos…
-
Como Usar dropna() do Python pandas para Remover Valores NA de um DataFrame
Introdução Neste tutorial, você aprenderá como usar a função dropna() do DataFrame do pandas. Os valores NA significam “Não Disponível”. Isso pode se aplicar a Null, None, pandas.NaT ou numpy.nan. Usar dropna() irá remover as linhas e colunas com esses valores. Isso pode ser benéfico para fornecer apenas dados válidos. Por padrão, esta função retorna um novo DataFrame e o DataFrame de origem permanece inalterado. Este tutorial foi verificado com Python 3.10.9, pandas 1.5.2 e NumPy 1.24.1. Sintaxe A função…
-
Filtragem de Dados Parquet com Pandas
Ao filtrar dados de arquivos Parquet usando o pandas, diversas estratégias podem ser adotadas. Embora seja amplamente reconhecido que a partição de dados pode melhorar significativamente a eficiência das operações de filtragem, existem outras técnicas para otimizar o desempenho de consultas a dados armazenados em arquivos Parquet. A partição é apenas uma das opções. Filtragem por Campos Particionados Como mencionado anteriormente, essa abordagem não apenas é a mais familiar, mas também geralmente a mais impactante em termos de otimização de…
-
Visualize Dados em Tempo Real com Python, Dash e RisingWave
A dados em tempo real são importantes para as empresas tomarem decisões rápidas. Visualizar esses dados pode ajudar a tomar decisões ainda mais rapidamente. Podemos criar representações visuais de dados usando várias aplicações de dados ou painéis. Dash é uma biblioteca Python de código aberto que oferece uma ampla gama de componentes internos para criar gráficos interativos, tabelas, gráficos e outros elementos de interface do usuário. RisingWave é um banco de dados de streaming baseado em SQL para processamentos de…
-
Como Usar o Pandas e o Matplotlib para Realizar a EDA em Python
A Análise Exploratória de Dados (EDA) é um passo essencial em qualquer projeto de ciência de dados, pois nos permite entender os dados, detectar padrões e identificar possíveis problemas. Neste artigo, exploraremos como usar duas bibliotecas populares do Python, Pandas e Matplotlib, para realizar a EDA. O Pandas é uma biblioteca poderosa para manipulação e análise de dados, enquanto o Matplotlib é uma biblioteca versátil para visualização de dados. Abordaremos os fundamentos de carregamento de dados em um DataFrame do…