Pandas

أولاما + سينغلستور = لانغ تشين = :-(

في مقال سابق، استخدمنا Ollama مع LangChain و SingleStore. قدمت LangChain حلًا فعالًا ومكتملًا لدمج Ollama مع SingleStore. ومع ذلك، ماذا إذا قررنا إزالة LangChain؟ سنقوم في هذا المقال بإظهار مثال على استخدام Ollama مع SingleStore بدون الاعتماد على LangChain. سنرى أنه بينما يمكننا تحقيق نفس النتائج الموضحة في المقال السابق، يزداد عدد الأجزاء البرمجية مما يتطلب منا إدارة جزء أكبر من السباكة التي تتعامل معها LangChain بشكل عادي. ملف المفكرة المستخدم في هذا المقال متاح على GitHub. مقدمة من…

July 15, 2024

الدروس التعليمية
مستودع بيانات لعلوم البيانات: اعتماد Arrow Flight SQL لنقل البيانات 10 أضعاف

لسنوات عديدة، تم اعتماد JDBC و ODBC كمعايير شائعة للتفاعل مع القواعد البيانات. الآن، وننظر إلى المجال الواسع للبيانات، نشأة علم البيانات وتحليل بحيرة البيانات يجلب مجموعات بيانات أكبر وأكبر. وعلى التوالي، نحتاج إلى قراءة ونقل البيانات أسرع وأسرع، لذا نبدأ في البحث عن إجابات أفضل من JDBC و ODBC. وهكذا، ندرج بروتوكول Arrow Flight SQL في أباتشي دوريس 2.1، الذي يوفر تسعين مرة من تحسين السرعة في نقل البيانات. نقل البيانات عالي السرعة مبني على Arrow Flight SQL كمخزن…

July 13, 2024

الدروس التعليمية
إجراء تحليل متقدم لبيانات أحداث Facebook باستخدام قاعدة بيانات متجهية

في عصرنا الرقمي الحالي، يجب على المحترفين في جميع الصناعات مواكبة الفعاليات القادمة، والمؤتمرات، والورش العمل. ومع ذلك، يشكل العثور بكفاءة على الأحداث التي تتناسب مع اهتمامات الشخص في بحر المعلومات الإلكترونية الواسعة الإمكانيات تحديًا كبيرًا. يقدم هذا المدونة حلًا مبتكرًا لهذه المشكلة: تطبيق شامل مصمم لتجزئة البيانات المتعلقة بالأحداث من Facebook وتحليل البيانات المجزئة باستخدام MyScale. بينما يرتبط MyScale عادة بمكونات تكنولوجيا RAG أو يستخدم كقاعدة بيانات بأشكال متعددة، فإن قدراته تتجاوز هذه العوالم. سنستخدمه لتحليل البيانات، مستفيدين من…

July 12, 2024

الدروس التعليمية
تسخير الذكاء الاصطناعي الخلاق في تحليل البيانات مع PandasAI

هل أتيتم يا رفاق بأمل أن تحللت بياناتكم نفسها؟ حسنًا، لقد اقتربنا من تحقيق ذلك اليوم. PandasAI هي أداة ابتكارية تسهل بشكل كبير عملية التحليل الإحصائي للبيانات. هذه المكتبة البرمجية في Python تطور من قاعدة الأدوات الشهيرة Pandas بمساعدة الذكاء الاصطناعي الخلاق، مما يجعل التحليل الإحصائي التلقائي ولكن المعقد بيانات حقيقة ممكنة. عن طريق تطبيق نماذج خلاقة مثل GPT-3.5 من OpenAI، يمكن لـ PandasAI أن تفهم وتستجيب للاستفسارات البشرية مثل الإستجابة، تنفيذ التلاعبات المعقدة في البيانات، وتوليد تمثيلات بصرية. التحليل…

July 11, 2024

الدروس التعليمية
ClickHouse: وظائف Windows من الصفر

ClickHouse هو نظام إدارة قواعد بيانات محوسب وموزع على حد سواء، يتم تحسينه للحسابات التحليلية، ويعتمد التخزين على الأعمدة. إنه منتج مفتوح ال原始码 تم تطويره بواسطة Yandex، شركة محرك بحث. من أهم ميزات ClickHouse هو دعمه للوظائف التحليلية المتقدمة، بما في ذلك وظائف النافذة. تم تقديم وظائف النافذة لأول مرة في أواخر التسعينيات بواسطة SQL Server، ومنذ ذلك الحين، أصبحت ميزة قياسية في العديد من قواعد البيانات العلائقية، بما في ذلك ClickHouse. اليوم، تعتبر وظائف النافذة أداة لا غنى عنها…

July 11, 2024

الدروس التعليمية
كيفية استخدام pandas dropna() في Python لإسقاط قيم NA من DataFrame

المقدمة في هذا البرنامج التعليمي، ستتعلم كيفية استخدام وظيفة DataFrame dropna() في pandas. قيم NA هي “غير متوفرة”. يمكن أن ينطبق ذلك على Null، None، pandas.NaT، أو numpy.nan. باستخدام dropna() ستقوم بإسقاط الصفوف والأعمدة التي تحتوي على هذه القيم. يمكن أن يكون ذلك مفيدًا لتوفير بيانات صالحة فقط. بشكل افتراضي، تعيد هذه الوظيفة DataFrame جديدة ويظل DataFrame المصدر دون تغيير. تم التحقق من صحة هذا البرنامج التعليمي باستخدام Python 3.10.9، pandas 1.5.2، و NumPy 1.24.1. الصيغة dropna() تأخذ المعلمات التالية:…

July 11, 2024

الدروس التعليمية
تصفية البيانات المصفوفة مع بانداس

عندما يتعلق الأمر بتصفية البيانات من ملفات Parquet باستخدام pandas، يمكن استخدام عدة استراتيجيات. وفي حين أنه من المعتاد الاعتراف بأن تقسيم البيانات يمكن أن يحسن بشكل كبير كفاءة في عمليات التصفية، هناك طرق إضافية لتحسين أداء استعلامات البيانات المخزنة في ملفات Parquet. التقسيم هو مجرد إحدى الخيارات. التصفية حسب الحقول المقسمة كما ذكرنا، هذا الأسلوب ليس فقط الأكثر دراية ولكن أيضاً عادة ما يكون الأكثر تأثيراً من حيث تحسين الأداء. التفسير وراء هذا سهل. عندما يتم استخدام القسم، يصبح…

June 30, 2024

الدروس التعليمية
تصور البيانات في الوقت الفعلي باستخدام بايثون، داش، وريزينغ ويف

البيانات في الوقت الفعلي مهمة للشركات لاتخاذ قرارات سريعة. رؤية هذه البيانات بصرياً يمكن أن تساعد في اتخاذ القرارات بشكل أسرع. يمكننا إنشاء تمثيلات بصرية للبيانات باستخدام تطبيقات بيانات مختلفة أو لوحات تحكم. تمثيل هي مكتبة Python مفتوحة المصدر توفر مجموعة واسعة من المكونات المدمجة لإنشاء رسوم بيانية تفاعلية، جداول، وعناصر UI الأخرى. تضليع الموجة قاعدة بيانات تدفق يعتمد على SQL لمعالجة البيانات في الوقت الفعلي. يوضح هذا المقال كيفية استخدام بيثون، تمثيل، وتضليع الموجة لإنشاء تصورات للبيانات في الوقت…

June 30, 2024

الدروس التعليمية
كيفية استخدام بانداس وماتبلوتليب لإجراء تحليل الاستقصاء الإحصائي في بايثون

تحليل البيانات الاستكشافي (EDA) هو خطوة أساسية في أي مشروع علم البيانات، حيث يسمح لنا بفهم البيانات، كشف الأنماط، وتحديد المشكلات المحتملة. في هذا المقال، سنستكشف كيفية استخدام مكتبتين شهيرتين في Python، Pandas و Matplotlib، لإجراء EDA. تعتبر Pandas مكتبة قوية للتلاعب بالبيانات والتحليل، بينما تعد Matplotlib مكتبة مرنة لتصور البيانات. سنغطي أساسيات تحميل البيانات في DataFrame باستخدام Pandas، استكشاف البيانات باستخدام وظائف Pandas، تنظيف البيانات، وأخيراً، تصور البيانات باستخدام Matplotlib. في نهاية هذا المقال، سيكون لديك فهم صحيح لكيفية…

June 30, 2024

الدروس التعليمية