Pandas
-
Ollama + SingleStore – LangChain = :-(
Dans un article précédent, nous avons utilisé Ollama avec LangChain et SingleStore. LangChain offrait une solution efficace et compacte pour l’intégration d’Ollama avec SingleStore. Cependant, que se passe-t-il si nous devions supprimer LangChain ? Dans cet article, nous allons démontrer un exemple d’utilisation d’Ollama avec SingleStore sans dépendre de LangChain. Nous verrons que bien que nous puissions obtenir les mêmes résultats que ceux décrits dans l’article précédent, le nombre de lignes de code augmente, nous obligeant à gérer une plus…
-
Entrepôt de données pour la science des données : Adopter Arrow Flight SQL pour un transfert de données 10 fois plus rapide
Depuis des années, JDBC et ODBC ont été des normes couramment adoptées pour l’interaction avec les bases de données. Aujourd’hui, en contemplant l’immensité du domaine des données, l’essor de la science des données et des analyses de data lake apporte des jeux de données de plus en plus volumineux. Par conséquent, nous avons besoin de lectures et de transmissions de données de plus en plus rapides, nous cherchons donc des réponses plus efficaces que JDBC et ODBC. C’est ainsi que…
-
Effectuer une analyse avancée des données d’événements Facebook avec une base de données vectorielle
Dans l’ère numérique d’aujourd’hui, les professionnels de tous les secteurs doivent rester à jour avec les événements à venir, les conférences et les ateliers. Cependant, trouver efficacement des événements qui correspondent à ses intérêts au milieu de l’immense océan d’informations en ligne présente un défi significatif. Ce blog présente une solution innovante à ce défi : une application complète conçue pour récupérer des données d’événements à partir de Facebook et analyser les données récupérées en utilisant MyScale. Bien que MyScale…
-
Maîtriser l’IA générative dans l’analyse de données avec PandasAI
Vous n’avez jamais souhaité que vos données s’analysent elles-mêmes? Eh bien, nous sommes un pas de plus vers ce jour-là. PandasAI est un outil révolutionnaire qui simplifie considérablement l’analyse des données. Cette bibliothèque Python étend les capacités de la populaire bibliothèque Pandas avec l’aide de intelligence artificielle générative, rendant une analyse des données automatisée et sophistiquée une réalité. En appliquant des modèles génératifs comme celui de GPT-3.5 d’OpenAI, PandasAI peut comprendre et répondre à des requêtes similaires à celles d’un…
-
ClickHouse : Fonctions Windows Depuis le Début
ClickHouse est un système de gestion de base de données relationnelle hautement scalable, orienté colonne, optimisé pour les charges de travail analytiques. Il s’agit d’un produit open-source développé par Yandex, une entreprise de moteur de recherche. L’une des caractéristiques clés de ClickHouse est son support pour des fonctions analytiques avancées, y compris les fonctions de fenêtre. Les fonctions de fenêtre ont été introduites pour la première fois à la fin des années 1990 par SQL Server, et depuis lors, sont…
-
Comment utiliser dropna() de Python pandas pour supprimer les valeurs NA d’un DataFrame
Introduction Dans ce tutoriel, vous apprendrez comment utiliser la fonction dropna() de la DataFrame de pandas. Les valeurs NA signifient « Non disponible ». Cela peut s’appliquer à Null, None, pandas.NaT ou numpy.nan. En utilisant dropna(), vous pouvez éliminer les lignes et les colonnes contenant ces valeurs. Cela peut être bénéfique pour ne conserver que les données valides. Par défaut, cette fonction renvoie une nouvelle DataFrame et la DataFrame source reste inchangée. Ce tutoriel a été vérifié avec Python 3.10.9, pandas 1.5.2…
-
Filtrage de données Parquet avec Pandas
En ce qui concerne le filtrage de données à partir de fichiers Parquet à l’aide de pandas, plusieurs stratégies peuvent être mises en œuvre. Bien qu’il soit largement reconnu que la partition des données peut considérablement améliorer l’efficacité des opérations de filtrage, il existe d’autres méthodes pour optimiser la performance de la requête des données stockées dans des fichiers Parquet. La partition est simplement l’une des options. Filtrage par Champs Partitionnés Comme mentionné précédemment, cette approche n’est pas seulement la…
-
Visualiser des données en temps réel avec Python, Dash et RisingWave
Les données en temps réel sont importantes pour les entreprises afin de prendre des décisions rapides. Visualiser ces données peut aider à prendre des décisions encore plus rapidement. Nous pouvons créer des représentations visuelles des données à l’aide de diverses applications de données ou tableaux de bord. Dash est une bibliothèque Python open-source qui offre un large éventail de composants intégrés pour créer des graphiques interactifs, des tableaux, des tableaux et d’autres éléments UI. RisingWave est une base de données…
-
Comment utiliser Pandas et Matplotlib pour réaliser une EDA en Python
L’analyse exploratoire des données (EDA) est une étape essentielle dans tout projet de science des données, car elle nous permet de comprendre les données, de détecter des modèles et d’identifier d’éventuels problèmes. Dans cet article, nous allons explorer comment utiliser deux bibliothèques Python populaires, Pandas et Matplotlib, pour effectuer une EDA. Pandas est une bibliothèque puissante pour la manipulation et l’analyse des données, tandis que Matplotlib est une bibliothèque polyvalente pour la visualisation des données. Nous aborderons les bases du…