بناء وكيل متصفح ذكاء اصطناعي باستخدام نماذج اللغة الكبيرة، بلاي رايت، واستخدام المتصفح

استخدام المتصفح هو أداة أو منصة مصممة لتمكين وكلاء الذكاء الاصطناعي (مثل نماذج OpenAI’s GPT أو نماذج اللغة الكبيرة الأخرى) من التفاعل مع متصفحات الويب والتحكم فيها بطريقة ذكية وآلية. إنه يتيح ربطًا أساسيًا بين قدرات الذكاء الاصطناعي وتفاعلات متصفح الويب في العالم الحقيقي، مما يجعل من الممكن لأنظمة الذكاء الاصطناعي أداء مهام مثل التنقل عبر مواقع الويب، واستخراج البيانات، وملء النماذج، والنقر على الأزرار، وأكثر من ذلك — تمامًا كما يفعل المستخدم البشري.

الهدف الرئيسي لاستخدام المتصفح هو جعل مواقع الويب قابلة للوصول وسهلة التفاعل لوكلاء الذكاء الاصطناعي عن طريق تجريد تفاصيل التشغيل التلقائي للمتصفح. بدلاً من الحاجة إلى كتابة سكربتات معقدة لمعرفة والتفاعل مع عناصر صفحات الويب، يبسط استخدام المتصفح هذه العملية من خلال استخراج جميع العناصر التفاعلية (مثل الأزرار، وحقول الإدخال، والروابط، إلخ) وتوفير واجهة منظمة لوكلاء الذكاء الاصطناعي للتفاعل معها.

السمات الرئيسية لاستخدام المتصفح

التشغيل التلقائي بواسطة الذكاء الاصطناعي

يستفيد استخدام المتصفح من الذكاء الاصطناعي لفهم والتفاعل مع صفحات الويب. على سبيل المثال، يمكنه تحليل محتوى صفحة الويب، وتحديد الإجراءات ذات الصلة (مثل النقر على زر أو ملء نموذج)، وتنفيذ تلك الإجراءات بشكل آلي.

استخراج الرؤية + HTML

يجمع بين الفهم البصري (التعرف على العناصر على الشاشة) مع استخراج هيكل HTML (تحليل الشيفرة الأساسية لصفحة الويب). يضمن هذا النهج المزدوج أن يمكن لوكلاء الذكاء الاصطناعي التفاعل مع عناصر الويب الثابتة والديناميكية، حتى لو لم تكن لديها معرفات واضحة مثل الهويات أو الفئات.

إدارة علامات متعددة

يمكن لاستخدام المتصفح التعامل مع عدة علامات تبويب للمتصفح بشكل متزامن، مما يتيح لوكلاء الذكاء الاصطناعي أداء سير عمل معقد يتضمن تفاعل مع عدة صفحات ويب في نفس الوقت.

يتتبع الأداة الإجراءات الدقيقة التي يقوم بها وكيل الذكاء الاصطناعي (مثل النقر على زر أو ملء نموذج) ويمكنه تكرار هذه الإجراءات بشكل متسق، حتى إذا تغير تصميم الموقع الإلكتروني قليلاً. وهذا مفيد بشكل خاص لإنشاء اختبارات ذاتية الشفاء في أتمتة ضمان الجودة.

إجراءات مخصصة

يمكن للمستخدمين توسيع استخدام المتصفح عن طريق إضافة إجراءات مخصصة، مثل حفظ البيانات في ملفات، أو إجراء عمليات قاعدة البيانات، أو إرسال الإشعارات، أو التعامل مع إدخالات الإنسان أثناء خطوات معينة في عملية الأتمتة.

التصحيح الذاتي

يتضمن استخدام المتصفح إدارة أخطاء ذكية وآليات استرداد تلقائية. إذا حدث خطأ ما أثناء عملية الأتمتة (مثل عنصر مفقود أو انقطاع الشبكة)، يمكن للأداة اكتشاف المشكلة ومحاولة الاسترداد تلقائيًا، مما يضمن استمرار سير العمل بدون انقطاع.

التوافق مع عدة LLMs

يدعم استخدام المتصفح مختلف نماذج اللغة الكبيرة (LLMs)، بما في ذلك GPT-4 من OpenAI، وClaude من Anthropic، وLlama 2 من Meta. تتيح هذه المرونة للمستخدمين اختيار أفضل نموذج ذكاء اصطناعي لاحتياجاتهم الخاصة.

كيفية عمل استخدام المتصفح

استخدام المتصفح يفحص صفحة الويب ويستخرج جميع العناصر التفاعلية (أزرار، حقول إدخال، روابط، نماذج، إلخ). ثم يوفر تمثيلًا منظمًا لهذه العناصر يمكن لوكلاء الذكاء الاصطناعي فهمه والتفاعل معه.

تفاعل الذكاء الاصطناعي

بمجرد تحديد العناصر التفاعلية، يمكن لوكلاء الذكاء الاصطناعي القيام بأعمال مثل النقر على الأزرار، ملء النماذج، التنقل بين الصفحات، أو استخراج البيانات. يمكن للوكيل الذكائي أيضًا تحليل محتوى صفحة الويب واتخاذ قرارات بناءً على المعلومات التي يجدها.

سير العمل التلقائي

يسمح استخدام المتصفح للمستخدمين بإنشاء سير العمل التلقائي المعقدة. على سبيل المثال، يمكن لوكيل الذكاء الاصطناعي التنقل عبر موقع التجارة الإلكترونية، إضافة عناصر إلى سلة التسوق، وإتمام عملية الشراء — كل ذلك دون تدخل بشري.

معالجة الأخطاء والاسترداد

إذا حدث خطأ خلال عملية التلقائية (على سبيل المثال، عنصر مفقود أو صفحة تحميل بطيء)، يمكن لاستخدام المتصفح اكتشاف المشكلة ومحاولة الاسترداد تلقائيًا. يضمن ذلك استمرار سير العمل بسلاسة، حتى في البيئات غير المتوقعة.

دليل التثبيت

البدء باستخدام المتصفح يكون بسيطًا، ولكن يتطلب بعض الإعدادات الأولية لضمان سير الأمور بسلاسة. فيما يلي دليل تثبيت مفصل يستند إلى المتطلبات الأولية والخطوات التي قدمتها. سيساعدك هذا الدليل في إعداد استخدام المتصفح محليًا على جهازك.

المتطلبات الأولية

قبل البدء، تأكد من أن نظامك يفي بالمتطلبات التالية:

  • بايثون 3.11 أو أحدث. يمكنك التحقق من إصدار بايثون الخاص بك عن طريق تشغيل الأمر:
    Python

     

  • جيت. الجيت مطلوب لنسخ المستودع

التثبيت المحلي

الخطوة 1: نسخ المستودع

Shell

 

الخطوة 2: إعداد بيئة Python

نوصي باستخدام uv لإدارة بيئة Python (موصى به لنظام التشغيل Mac):

Shell

 

1. Create a virtual environment. Run the following command to create a virtual environment with Python 3.11:

Shell

 

2. Activate the virtual environment.
  • نافذة Windows (موجه الأوامر):
    الشَّل

     

  • macOS/Linux:
    القشرة

     

بمجرد تنشيطه، يجب أن ترى .venv في سطر الأوامر الخاص بك، مما يشير إلى أن البيئة الافتراضية نشطة.

الخطوة 3: تثبيت التبعيات

الآن بعد إعداد بيئتك، حان الوقت لتثبيت التبعيات الضرورية.

تثبيت حزم Python. استخدم الأمر التالي لتثبيت الحزم اللازمة المدرجة في requirements.txt:

Shell

 

الخطوة 4: تثبيت Playwright

Playwright هو مكتبة لأتمتة المتصفح تستخدمه Browser Use.

لتثبيته، قم بتشغيل الأمر:

Shell

 

دليل الإعداد المحلي لاستخدام واجهة المستخدم على متصفح Use

بمجرد الانتهاء من خطوات التثبيت لاستخدام المتصفح، يمكنك بدء تشغيل واجهة المستخدم على الويب محليًا. سيوجهك هذا الدليل خلال تشغيل التطبيق، وتخصيص إعداداته، وتكوينه لاستخدام متصفحك الخاص إذا لزم الأمر.

تشغيل واجهة المستخدم على الويب

بعد إكمال خطوات التثبيت، يمكنك بدء تشغيل واجهة المستخدم على الويب لاستخدام المتصفح عن طريق تشغيل الأمر التالي:

Shell

 

توفر واجهة المستخدم على الويب العديد من الخيارات لتخصيص سلوكها. فيما يلي تفصيل للعلامات المتاحة:

  • --ip– عنوان IP لربط واجهة المستخدم عليه
    • الافتراضي – 127.0.0.1 (localhost)
  • --port– المنفذ الذي يربط واجهة المستخدم عليه
    • الافتراضي – 7788
  • --السمة – السمة لواجهة المستخدم

الوصول إلى واجهة الويب

بمجرد تشغيل واجهة الويب، افتح متصفح الويب الخاص بك وانتقل إلى:

Plain Text

 

Once the above command is executed, you should see the Browser Use interface, where you can interact with the tool and configure AI-driven browser automation tasks.

تكوين LLM

في تكوين LLM، حدد نموذج لغة، على سبيل المثال، جيميني. جيميني يوفر مفتاح API المجاني.

Generate the API keys from the link attached below.

في اللقطة أدناه، يمكنك رؤية أننا قمنا بإضافة مفاتيح API تم إنشاؤها باستخدام الرابط أعلاه.

تشغيل الوكيل

في تشغيل الوكيل، دعنا نقدم الاستفسار “انتقل إلى amazon.in واكتب ‘بلاي رايت’ انقر بحث وأعطني أول عنوان URL.”

في اللقطة أدناه، يمكنك رؤية أنه عند تشغيل الاستفسار، سيتم فتح متصفح كروم والتفاعل مع DOM كامل للصفحة.

وأخيرًا، سيقوم بإدخال القيمة بلاي رايت في مربع البحث، ويمكنك رؤية اللقطة أدناه.

In the below screenshot, you can see it gives us the first URL.

في الخلفية، يمكنك رؤية أن جميع السجلات تم تنفيذها؛ أيا كان الوكيل الذي يقوم بتنفيذ سجله، جميع السجلات في الخلفية.

النتيجة

في علامة النتائج، يمكنك رؤية النتيجة النهائية، إجراء النموذج، أفكار النموذج، ملف التتبع، وتاريخ الوكيل.

الفيديو

يمكنك تنزيل الفيديو بالنقر فوق الرابط المقدم. يمكنك أيضًا رؤية الفيديو المرفق تحت علامة التسجيلات.عند تشغيل الفيديو، سترى جميع الخطوات التي قام بها الوكيل.

أدناه بعض لقطات الشاشة من الفيديو.

الختام

تمثل دمج LLMs، Playwright، واستخدام المتصفح قفزة جديدة في التحكم التلقائي بالمتصفح وسير العمل القائم على الذكاء الاصطناعي. سيمكنك دمج هذه الأدوات لإنشاء وكلاء متصفح ذكية قادرة على تنفيذ مهام معقدة مع تدخل بشري أدنى. من أتمتة العمليات المتكررة إلى تمكين اختبار الجودة الديناميكي واتخاذ القرارات في الوقت الفعلي، الإمكانيات لا حصر لها.

المرجع

Source:
https://dzone.com/articles/build-ai-browser-agent-llms-playwright-browser-use