Pandas
-
Ollama + SingleStore – LangChain = :-(
In einem früheren Artikel haben wir Ollama mit LangChain und SingleStore verwendet. LangChain bot eine effiziente und kompakte Lösung für die Integration von Ollama mit SingleStore. Wie würde es jedoch ausscheinen, wenn wir LangChain entfernen würden? In diesem Artikel werden wir ein Beispiel zeigen, wie Ollama mit SingleStore verwendet werden kann, ohne auf LangChain zu verlassen. Wir werden erkennen, dass wir die gleichen Ergebnisse erzielen können, die in dem früheren Artikel beschrieben wurden, aber die Anzahl der Code steigt, was…
-
Datenbank für Data Science: Arrow Flight SQL zur 10-fachen Datenübertragung verwenden
Seit Jahren sind JDBC und ODBC weit verbreitete Normen für die Interaktion mit Datenbanken. Nun, wenn wir auf die unermessliche Weite des Datenbereichs blicken, bringen der Aufstieg der Data-Science und die Analyse von Data-Lakes immer größere Datensätze mit sich. Entsprechend benötigen wir schnellere und schnellere Datenlesung und -übertragung, weshalb wir nach besseren Lösungen als JDBC und ODBC suchen. Daher integrieren wir das Arrow Flight SQL-Protokoll in Apache Doris 2.1, das eine Steigerung der Datenübertragungsgeschwindigkeit um ein Vielfaches ermöglicht. Hochgeschwindigkeits-Datenübertragung basierend…
-
Durchführung einer fortgeschrittenen Facebook-Ereignisdatenanalyse mit einer Vektor-Datenbank
Im heutigen digitalen Zeitalter müssen Fachleute in allen Branchen auf dem Laufenden bleiben mit den neuesten Veranstaltungen, Konferenzen und Workshops. Allerdings stellt die effiziente Suche nach Veranstaltungen, die zu den eigenen Interessen passen, inmitten des riesigen Informationsmeers im Internet eine erhebliche Herausforderung dar. Dieser Blog stellt eine innovative Lösung für diese Herausforderung vor: eine umfassende Anwendung, die Veranstaltungsdaten von Facebook ausliest und die ausgelesenen Daten mithilfe von MyScale analysiert. Obwohl MyScale häufig mit der RAG-Technologiestack oder als Vektor-Datenbank in Verbindung…
-
Generative AI nutzen in der Datenanalyse mit PandasAI
Wünschst du dir, dass deine Daten sich selbst analysieren? Nun, wir sind ein Schritt näher zu diesem Tag. PandasAI ist ein bahnbrechendes Werkzeug, das die Datenanalyse erheblich vereinfacht. Diese Python-Bibliothek erweitert die Fähigkeiten der beliebten Pandas-Bibliothek mit Hilfe von generativem AI, was automatisierte aber anspruchsvolle Datenanalyse zur Realität macht. Durch die Anwendung von generativen Modellen wie OpenAI’s GPT-3.5 kann PandasAI menschenähnliche Abfragen verstehen und beantworten, komplexe Datenmanipulationen ausführen und visuelle Darstellungen erzeugen. Die Kombination von Datenanalyse und KI schafft Erkenntnisse,…
-
ClickHouse: Windows-Funktionen von Grund auf
ClickHouse ist ein hoch skalierbares, spaltenorientiertes relationelles Datenbankmanagementsystem, das für analytische Workloads optimiert ist. Es handelt sich um ein Open-Source-Produkt, das von Yandex, einer Suchmaschinenfirma, entwickelt wurde. Ein wichtiges Merkmal von ClickHouse ist die Unterstützung für fortgeschrittene analytische Funktionen, einschließlich Fensterfunktionen. Fensterfunktionen wurden erstmals Ende der 1990er Jahre von SQL Server eingeführt und sind mittlerweile in vielen relationellen Datenbanken, einschließlich ClickHouse, zu einem Standardmerkmal geworden. Heute sind Fensterfunktionen ein unverzichtbares Werkzeug für Datenanalysten und Entwickler und werden in vielen Branchen…
-
Verwendung von Python pandas dropna() zum Löschen von NA-Werten aus DataFrame
Einführung In diesem Tutorial erfahren Sie, wie Sie die dropna()-Funktion von pandas DataFrame verwenden. NA-Werte stehen für „Nicht verfügbar“. Dies kann auf Null, None, pandas.NaT oder numpy.nan zutreffen. Die Verwendung von dropna() entfernt die Zeilen und Spalten mit diesen Werten. Dies kann Ihnen dabei helfen, nur gültige Daten zu erhalten. Standardmäßig gibt diese Funktion ein neues DataFrame zurück, und das Ausgangs-DataFrame bleibt unverändert. Dieses Tutorial wurde mit Python 3.10.9, pandas 1.5.2 und NumPy 1.24.1 überprüft. Syntax dropna() akzeptiert die folgenden…
-
Parquet-Datenfilterung mit Pandas
Bei der Filterung von Daten aus Parquet-Dateien mithilfe von pandas können verschiedene Strategien angewendet werden. Während es weitgehend anerkannt ist, dass die Partitionierung von Daten die Effizienz von Filteroperationen erheblich steigern kann, gibt es zusätzliche Methoden, um die Leistungsfähigkeit von Abfragen zu optimieren, die Daten in Parquet-Dateien speichern. Die Partitionierung ist nur eine der Optionen. Filterung nach Partitionsfeldern Wie bereits erwähnt, ist dieser Ansatz nicht nur der am häufigsten bekannte, sondern auch in der Regel der am stärksten in Bezug…
-
Visualisieren Sie Echtzeitdaten mit Python, Dash und RisingWave
Echtzeitdaten sind für Unternehmen wichtig, um schnell Entscheidungen zu treffen. Die visuelle Darstellung dieser Daten kann die Entscheidungsfindung sogar noch beschleunigen. Wir können visuelle Darstellungen von Daten mit verschiedenen Daten-Apps oder Dashboards erstellen. Dash ist eine quelloffene Python-Bibliothek, die eine breite Palette integrierter Komponenten für die Erstellung interaktiver Diagramme, Graphen, Tabellen und anderer UI-Elemente bietet. RisingWave ist eine SQL-basierte Streaming-Datenbank für die Echtzeitverarbeitung von Daten. In diesem Artikel wird erklärt, wie man Python, Dash und RisingWave verwendet, um Visualisierungen von…
-
So funktioniert die EDA in Python mit Pandas und Matplotlib
Exploratory Data Analysis (EDA) ist ein entscheidender Schritt in jedem Data-Science-Projekt, da es uns ermöglicht, die Daten zu verstehen, Muster zu erkennen und potenzielle Probleme zu identifizieren. In diesem Artikel werden wir untersuchen, wie man mit zwei beliebten Python-Bibliotheken, Pandas und Matplotlib, EDA durchführt. Pandas ist eine leistungsfähige Bibliothek zur Datenmanipulation und -analyse, während Matplotlib eine vielseitige Bibliothek zur Datenvisualisierung ist. Wir werden die Grundlagen der Datenaufnahme in eine pandas DataFrame behandeln, die Daten mithilfe von pandas-Funktionen erkunden, die Daten…