Pandas
-
Ollama + SingleStore – LangChain = :-(
In un articolo precedente, abbiamo utilizzato Ollama insieme a LangChain e SingleStore. LangChain forniva una soluzione efficiente e compatta per l’integrazione di Ollama con SingleStore. Tuttavia, cosa succederebbe se dovessimo rimuovere LangChain? In questo articolo, mostreremo un esempio di come usare Ollama con SingleStore senza dipendere da LangChain. Vedremo che, sebbene possiamo raggiungere gli stessi risultati descritti nell’articolo precedente, il numero di codice aumenta, costringendoci a gestire più del tubo che normalmente LangChain gestisce. Il file notebook usato in questo…
-
Data Warehouse per Data Science: Adozione di Arrow Flight SQL per il Trasferimento Dati 10X
Negli anni, JDBC e ODBC sono stati norme comunemente adottate per l’interazione con i database. Ora, mentre osserviamo la vasta estensione del mondo dei dati, l’ascesa della scienza dei dati e dell’analisi dei data lake porta a set di dati sempre più grandi. Di conseguenza, abbiamo bisogno di lettura e trasmissione dei dati sempre più veloci, quindi iniziamo a cercare risposte migliori di quelle offerte da JDBC e ODBC. Pertanto, includiamo il protocollo Arrow Flight SQL in Apache Doris 2.1,…
-
Eseguire un’analisi avanzata dei dati degli eventi di Facebook con un database vettoriale
Nell’era digitale di oggi, i professionisti in tutti i settori devono rimanere aggiornati su eventi imminenti, conferenze e workshop. Tuttavia, trovare efficientemente eventi che corrispondono ai propri interessi nel vasto oceano di informazioni online rappresenta una sfida significativa. Questo blog introduce una soluzione innovativa a questa sfida: un’applicazione completa progettata per estrarre dati sugli eventi da Facebook e analizzare i dati estratti utilizzando MyScale. Mentre MyScale è comunemente associato alla pila tecnologica RAG o utilizzato come database vettoriale, le sue…
-
Sfruttare l’IA Generativa nell’Analisi dei Dati con PandasAI
Spesso desideri che i tuoi dati si analizzino da soli? Bene, siamo un passo più vicini a quel giorno. PandasAI è uno strumento rivoluzionario che semplifica notevolmente l’analisi dei dati. Questa libreria Python amplia le capacità della popolare libreria Pandas con l’aiuto di intelligenza generativa, rendendo reale un’analisi dei dati automatizzata ma sofisticata . Applicando modelli generativi come il GPT-3.5 di OpenAI, PandasAI può comprendere e rispondere a query simili all’umano, eseguire manipolazioni dei dati complesse e generare rappresentazioni visive.…
-
ClickHouse: Funzioni di Windows Partendo da Zero
ClickHouse è un sistema di gestione di database relazionali altamente scalabile e orientato ai dati in colonna ottimizzato per carichi di lavoro analitici. Si tratta di un prodotto open-source sviluppato da Yandex, azienda specializzata nella ricerca su internet. Una delle caratteristiche chiave di ClickHouse è il suo supporto per funzioni analitiche avanzate, inclusa la compatibilità con le funzioni finestra. Le funzioni finestra sono state introdotte per la prima volta alla fine degli anni ’90 da SQL Server e da allora…
-
Come utilizzare dropna() di Python pandas per eliminare i valori NA dal DataFrame
Introduzione In questo tutorial, imparerai come utilizzare la funzione DataFrame dropna() di panda. I valori NA sono “Non disponibili”. Questo può applicarsi a Null, None, pandas.NaT, o numpy.nan. Utilizzando dropna() verranno eliminati le righe e le colonne con questi valori. Questo può essere utile per fornirti solo dati validi. Per default, questa funzione restituisce un nuovo DataFrame e il DataFrame di origine rimane invariato. Questo tutorial è stato verificato con Python 3.10.9, pandas 1.5.2 e NumPy 1.24.1. Sintassi dropna() accetta…
-
Filtrazione dei Dati Parquet con Pandas
Quando si tratta di filtrare dati da file Parquet utilizzando pandas, ci sono diverse strategie che possono essere adottate. Sebbene sia ampiamente riconosciuto che la partizionamento dei dati può migliorare significativamente l’efficienza delle operazioni di filtraggio, ci sono ulteriori metodi per ottimizzare le prestazioni di interrogazione dei dati archiviati nei file Parquet. Il partizionamento è solo una delle opzioni. Filtrare per Campi Partizionati Come precedentemente menzionato, questo approccio non solo è il più familiare ma anche tipicamente il più influente…
-
Visualizza Dati in Tempo Reale con Python, Dash e RisingWave
I dati in tempo reale sono importanti per le aziende per prendere decisioni rapide. Visualizzare questi dati può aiutare a prendere decisioni ancora più velocemente. Possiamo creare rappresentazioni visive dei dati utilizzando vari app dati o dashboard. Dash è una libreria Python open-source che offre una vasta gamma di componenti predefiniti per creare grafici interattivi, tabelle, grafici e altri elementi UI. RisingWave è un database streaming basato su SQL per il trattamento dei dati in tempo reale. Questo articolo spiegherà…
-
Come Utilizzare Pandas e Matplotlib per Eseguire l’EDA in Python
L’analisi dei dati esplorativa (EDA) è un passo essenziale in qualsiasi progetto di data science, poiché ci permette di comprendere i dati, rilevare pattern e identificare potenziali problemi. In questo articolo, esploreremo come utilizzare due popolari librerie Python, Pandas e Matplotlib, per eseguire l’EDA. Pandas è una potente libreria per la manipolazione e l’analisi dei dati, mentre Matplotlib è una libreria versatile per la visualizzazione dei dati. Copriremo le basi del caricamento dei dati in un DataFrame pandas, dell’esplorazione dei…