Pandas
-
אולאמה + SingleStore – LangChain = :-(
במאמר קודם, השתמשנו בOllama בעזרת LangChain ו SingleStore. לangChain סיפקה פתרון יעיל וצר בשילוב עבור התאמה של Ollama עם SingleStore. אך מה אם נסלק LangChain? במאמר זה, אנחנו נראה דוגמה לשימוש בOllama עם SingleStore ללא הסמכה על לangChain. נראה שאף על פי שאנחנו יכולים להשיג את אותם התוצאות שהוצגו במאמר הקודם, מספר הקוד יגדל, ונדרשת לנו לנהל יותר מחלק של המידבור שלangChain מטפלת בהם בדרך כלל. קבצי הערון השימושיים במאמר זה זמינים בGitHub. הקדמה מהמאמר הקודם, נעבור על אותן השלבים…
-
Data Warehouse for Data Science: Adopting Arrow Flight SQL for 10X Data Transfer
למרות שבמשך שנים, JDBC ו-ODBC היו הנורמות הנפוצות לאינטראקציה עם מסדי נתונים, כיום, כשאנו מביטים במרחב העצום של ממלכת הנתונים, העליה במדעי הנתונים וניתוחי ערימת הנתונים מביאה לנו קבצי נתונים גדולים יותר ויותר. בהתאמה, אנו זקוקים לקריאת נתונים והעברתם מהירים יותר, ולכן אנו מחפשים תשובות טובות יותר מאשר JDBC ו-ODBC. כתוצאה מכך, אנו מכלילים את פרוטוקול Arrow Flight SQL ב-Apache Doris 2.1, שמספק עידודים של עשרות פקטורים להעברת נתונים. העברת נתונים מהירה מבוססת Arrow Flight SQL ככברת מידע מבוססת עמודות,…
-
ביצוע ניתוח מתקדם של נתוני אירועי Facebook עם מסד נתונים וקטורי
בעידן הדיגיטלי של היום, מקצוענים מכל התעשיות חייבים להישאר מעודכנים עם אירועים עתידיים, כנסים וסדנאות. עם זאת, מציאת אירועים המתאימים לתחומי העניין של אדם בקרב הים העצום של מידע מקוון מהווה אתגר משמעותי. בבלוג זה מציגים פתרון חדש לאתגר זה: יישום מקיף שמושך נתוני אירועים מפייסבוק ומנתח את הנתונים המושפעים באמצעות MyScale. בעוד ש-MyScale קשור בדרך כלל לענף RAG או משמש כמסד נתונים וקטורי, היכולות שלו מעבר לתחומים אלה. נשתמש בו לניתוח נתונים, משתמשים בפונקציות החיפוש הווקטוריות שלו לניתוח אירועים…
-
השתמש ב-AI יצירתי לניתוח מידע באמצעות PandasAI
אי פעם בקשרת משאבות הנתונים שלך לנתח את עצמם? ובכן, אנו קרובים יותר לאותו יום. PandasAI היא כלי פורץ דרך המאפשר ניתוח נתונים מאוד מסודר. ספריית Python זו מרחיבה את היכולות של ספריית Pandas המקובלת באמצעות AI יצירתית, מה שהופך את הניתוח האוטומטי והמתוחכם של נתונים למציאות. על ידי החלת מודלים יצירתיים כמו GPT-3.5 של OpenAI, PandasAI יכול להבין ולהגיב לשאילתות דמויות אנושיות, לבצע פעולות מסובכות של שינוי נתונים ולייצר ייצוגים חזותיים. ניתוח נתונים ו-AI משתלבים כדי ליצור תובנות שמפתחות…
-
ClickHouse: פונקציות Windows מאפס
ClickHouse היא מערכת ניהול מסדי נתונים ממיושמת בצורה מקבילית, מבוססת עמודות, ומותאמת במיוחד לעבודות אנליטיות. זהו מוצר פתוח המפתח על ידי Yandex, חברת מנוע חיפוש. אחת המאפיינים המרכזיים של ClickHouse היא התמיכה בפונקציות אנליטיות מתקדמות, כולל פונקציות חלון. פונקציות החלון הוצגו לראשונה בשנות ה-90 של המאה הקודמת על ידי SQL Server, ומאז הפכו לתכונה סטנדרטית במסדי נתונים רומנציה רבים, כולל ClickHouse. היום, פונקציות החלון הן כלי חיוני למحللי נתונים ומפתחים ומשמשות באופן נרחב בתעשיות רבות. פונקציות אלו, המכונות גם פונקציות…
-
כיצד להשתמש ב-dropna() של Python pandas כדי להוריד ערכים NA ממסגרת נתונים
הקדמה במדריך זה, תלמד כיצד להשתמש בפונקציית DataFrame dropna() של pandas. ערכים NA הם "לא זמינים". זה יכול להתייחס ל־Null, None, pandas.NaT, או numpy.nan. בשימוש ב־dropna() תימחק שורות ועמודות עם ערכים אלה. זה עשוי להיות מועיל כדי לספק לך רק נתונים תקינים בלבד. בדרך כלל, פונקציה זו מחזירה DataFrame חדש והDataFrame המקורי נשאר ללא שינוי. המדריך הזה אומת עם Python 3.10.9, pandas 1.5.2, ו־NumPy 1.24.1. תחביר dropna() מקבלת את הפרמטרים הבאים: dropna(self, axis=0, how="any", thresh=None, subset=None, inplace=False) Copy axis: {0…
-
סינון נתוני פארקט עם פנדס
כשזה מגיע לסינון נתונים מקבצי Parquet באמצעות pandas, יש לשים לב שישנם מספר שיטות אפשריות. בעוד שמהודא שחלוקת הנתונים יכולה לשפר באופן משמעותי את היעילות של פעולות הסינון, ישנם שיטות נוספות לייעל את הביצועים של שאילתת הנתונים המאוחסנים בקבצי Parquet. חלוקת הנתונים היא רק אחת האפשרויות. סינון לפי שדות מחולקים כפי שכבר הוזכר, שיטה זו היא לא רק הנפוצה ביותר אלא גם היעילה ביותר מבחינת שיפור הביצועים. ההגיון מאחורי זה הוא פשוט. כאשר משתמשים בחלוקות, ניתן לבדוק בספציפיות את הצורך…
-
הצגת נתונים בזמן אמת עם פייתון, דאש, ו-RisingWave
נתונים בזמן אמת חשובים עבור עסקים לקבלת החלטות מהירות. ראיית נתונים זה באופן ויזואלי יכולה לעזור לקבל החלטות אפילו מהר יותר. אנו יכולים ליצור ייצוגים ויזואליים של נתונים באמצעות יישומים נתונים שונים או לוחות מחויכים. Dash היא ספריית Python פתוחת המקור המספקת מגוון רחב של רכיבים מובנים ליצירת גרפים אינטראקטיביים, גרפים, טבלאות ואלמנטים UI אחרים. RisingWave הוא מסד נתונים זרימה מבוסס SQL לעיבוד נתונים בזמן אמת. מאמר זה יסביר כיצד להשתמש Python, Dash, ו-RisingWave ליצירת ויזואליזציות של נתונים בזמן אמת.…
-
איך להשתמש ב-Pandas ו-Matplotlib לביצוע EDA ב-Python
ניתוח נתונים חקרי (EDA) הוא שלב חיוני בכל פרויקט מדעי הנתונים, שכן הוא מאפשר לנו להבין את הנתונים, לזהות דפוסים ולזהות בעיות אפשריות. במאמר זה, נחקור כיצד להשתמש בשתי ספריות פייתון פופולריות, Pandas ו-Matplotlib, לביצוע EDA. Pandas היא ספריה עוצמתית לתיאוריה וניהול נתונים, ו-Matplotlib היא ספריה רבת השימוש להמחשת נתונים. נכסה את היסודות של הוספת נתונים ל-DataFrame של pandas, חקירת הנתונים באמצעות פונקציות של pandas, ניקוי הנתונים, ולבסוף, המחשת הנתונים באמצעות Matplotlib. עד סוף המאמר הזה, תהיה לך הבנה מוצקה…