בנה סוכן דפדפן מבוסס בינה מלאכותית עם LLMs, Playwright ושימוש בדפדפן

שימוש בדפדפן הוא כלי או פלטפורמה שמיועדת לאפשר לסוכנים של AI (כמו דגמי GPT של OpenAI או דגמים גדולים אחרים של שפה) להתקשר ולשלוט בדפדפני אינטרנט בדרך חכמה ואוטומטית. הוא מחבר בין יכולות הAI והממשקים של דפדפנים בעולם האמיתי, מאפשר למערכות AI לבצע משימות כמו ניווט באתרים, חילוץ נתונים, מילוי טפסים, לחיצה על כפתורים ועוד – בדיוק כמו משתמש אנושי.

המטרה העיקרית של שימוש בדפדפן היא להפוך את אתרי האינטרנט לגמישים וניתנים לפעולה עבור סוכני AI על ידי הזרקת המורכבויות של האוטומציה של דפדפן. במקום לדרוש ממפתחים לכתוב סקריפטים מורכבים לאיתור והתקשרות עם אלמנטים בעמוד האינטרנט, שימוש בדפדפן מפשט את התהליך על ידי חילוץ כל האלמנטים האינטראקטיביים (כמו כפתורים, שדות קלט, קישורים וכו') וספק ממשק מובנה לסוכני AI להתקשרות.

תכונות מרכזיות של שימוש בדפדפן

אוטומציה מופעלת על ידי AI

שימוש בדפדפן משתמש בAI כדי להבין ולהתקשר עם דפי אינטרנט. לדוגמה, זה יכול לנתח את תוכן הדף, לזהות פעולות רלוונטיות (כמו לחיצה על כפתור או מילוי טופס) ולבצע את הפעולות הללו באופן אוטונומי.

שליטה בראייה + חילוץ HTML

הוא משלב הבנה חזותית (זיהוי אלמנטים במסך) עם חילוץ מבנה HTML (פיענוח קוד התכנית הסמכה של דף האינטרנט). הגישה הכפולה הזו מבטיחה שסוכני AI יכולים להתקשר עם אלמנטים סטטיים ודינמיים ברשת, גם אם אין להם מזהים ברורים כמו זיהויים או מחלקות.

ניהול מרובה לשוניות

שימוש בדפדפן יכול לעסוק במספר לשוניות בדפדפן במקביל, מאפשר לסוכני AI לבצע זרימות עבודה מורכבות הכוללות אינטראקציה עם מספר דפי אינטרנט בו זמנית.

הכלי מעקב אחר הפעולות המדויקות שנעשות על ידי סוכן AI (למשל, לחיצה על כפתור או מילוי טופס) ויכול לשכפל את הפעולות הללו באופן עקבי, גם אם פריסת האתר משתנה לא די כמה. זה מאוד שימושי במיוחד ליצירת בדיקות שיפור עצמיות באוטומציה של QA.

פעולות מותאמות אישית

משתמשים יכולים להרחיב את שימוש בדפדפן על ידי הוספת פעולות מותאמות אישית, כגון שמירת נתונים לקבצים, ביצוע פעולות במסד נתונים, שליחת התראות או טיפול בקלטי אדם במהלך שלבים מסוימים בתהליך האוטומציה.

תיקון עצמי

שימוש בדפדפן כולל טיפול חכם בשגיאות ומנגנוני שחזור אוטומטיים. אם משהו משתבש במהלך האוטומציה (למשל, אלמנט חסר או זמן קצר ברשת), הכלי יכול לזהות את הבעיה ולנסות לשחזר באופן אוטומטי, מבטיח שהזרימות ימשיכו ללא הפסקה.

תאימות עם מספר LLMs

שימוש בדפדפן תומך במספר רחב של מודלי שפה גדולים (LLMs), כולל GPT-4 של OpenAI, Claude של Anthropic וLlama 2 של Meta. הגמישות הזו מאפשרת למשתמשים לבחור במודל הAI הטוב ביותר לצרכיהם המסוימים.

איך שימוש בדפדפן עובד

שימוש בדפדפן סורק את עמוד האינטרנט ומחלץ את כל הרכיבים האינטראקטיביים (כפתורים, שדות קלט, קישורים, טפסים וכו'). לאחר מכן, הוא מספק תצוגה מובנית של רכיבים אלו שסוכני AI יכולים להבין ולפעול עימם.

אינטראקציה ב-AI

לאחר שהרכיבים האינטראקטיביים מזוהים, סוכני AI יכולים לבצע פעולות כגון ללחוץ על כפתורים, למלא טפסים, לנווט בין עמודים או לחלץ נתונים. הסוכן המלאכותי יכול גם לנתח את תוכן עמוד האינטרנט ולקבל החלטות בהתבסס על המידע שהוא מוצא.

זרימות עבודה אוטומטיות

שימוש בדפדפן מאפשר למשתמשים ליצור זרימות עבודה אוטומטיות מורכבות. לדוגמה, סוכן AI יכול לנווט באמצעות אתר סחר אלקטרוני, להוסיף פריטים לעגלת קניות ולהשלים רכישה – הכול בלי התערבות אנושית.

טיפול בשגיאות ושחזור

אם משהו הולך לא כמתוכנן בתהליך האוטומציה (לדוגמה, רכיב חסר או עמוד המתעכב), שימוש בדפדפן יכול לזהות את הבעיה ולנסות לשחזר אותה באופן אוטומטי. זה מבטיח כי זרימות העבודה ימשיכו בצורה חלקה, גם בסביבות שאינן צפויות.

מדריך התקנה

התחלה עם שימוש בדפדפן היא פשוטה, אך היא מחייבת קצת הגדרה ראשונית כדי לוודא שהכל פועל בצורה חלקה. להלן מדריך התקנה מפורט בהתבסס על הדרישות המוקדמות והשלבים שסיפקת. המדריך יוביל אותך דרך הגדרת שימוש בדפדפן באופן מקומי על המחשב שלך.

דרישות מוקדמות

לפני שתתחיל, וודא שהמערכת שלך עומדת בדרישות הבאות:

  • פייתון 3.11 או גרסה גבוהה יותר. ניתן לבדוק את גרסת הפייתון שלך על ידי הרצת הפקודה:
    Python

     

  • גיט. גיט נדרש כדי לשכפל את המאגר

התקנה מקומית

שלב 1: שכפול המאגר

Shell

 

שלב 2: הגדרת סביבת Python

אנו ממליצים על השימוש ב־uv לניהול סביבת Python (מומלץ עבור Mac):

Shell

 

1. Create a virtual environment. Run the following command to create a virtual environment with Python 3.11:

Shell

 

2. Activate the virtual environment.
  • Windows (פקודת הפעלה):
    שורת פקודה

  • macOS/Linux:
    שורת פקודה

     

פעם שהופעל, תראה את .venv בערך ה-prompt שלך בטרמינל, המציין שהסביבה הווירטואלית פעילה.

שלב 3: התקנת תלותי

עכשיו שהסביבה שלך מוכנה, הגיע הזמן להתקין את התלותים הדרושים.

התקנת חבילות Python. השתמש בפקודה הבאה כדי להתקין את החבילות הדרושות שמופיעות ב־requirements.txt:

Shell

 

שלב 4: התקנת Playwright

Playwright היא ספריית אוטומציה של דפדפן המשמשת על ידי Browser Use.

כדי להתקין אותה, הרץ את הפקודה:

Shell

 

מדריך הגדרה מקומית ל־Browser Use WebUI

לאחר שהשלמת את שלבי ההתקנה עבור Browser Use, תוכל להתחיל להריץ את ה־WebUI מקומית. מדריך זה ידריך אותך דרך ההפעלה של היישום, התאמת הגדרותיו והגדרתו לשימוש בדפדפן שלך אם נדרש.

הפעלת ה־WebUI

לאחר שהשלמת את שלבי ההתקנה, תוכל להתחיל את ה־Browser Use WebUI על ידי הרצת הפקודה הבאה:

Shell

 

ה־WebUI מספק מספר אפשרויות להתאמת ההתנהגות שלו. הנה פירוט של הדגלים הזמינים:

  • --ip– כתובת ה-IP לקישור של ה־WebUI
    • ברירת מחדל – 127.0.0.1 (localhost)
  • --port– היציאה לקישור של ה־WebUI
    • ברירת מחדל – 7788
  • --נושא – הערכת ערכת נושא לממשק המשתמש

גישה ל-Mלממשק הרשת

כאשר Mנפעיל את ממשק הרשת, פתח את דפדפן הרשת שלך ונווט אל:

Plain Text

 

Once the above command is executed, you should see the Browser Use interface, where you can interact with the tool and configure AI-driven browser automation tasks.

תצורת LLM

בתצורת LLM, בחר מודל שפה, לדוגמה, ג'מיני. ג'מיני מספק את מפתח ה- API החינמי.

Generate the API keys from the link attached below.

בתמונת המסך למטה, ניתן לראות שהוספנו את מפתחות ה- API שנוצרו עם הקישור לעיל.

הפעלת ה-Agent

בהפעלת ה-Agent, נתן את הפרומט "עבור ל- amazon.in והקלד 'פליוורייט' לחץ חיפוש והביא לי את כתובת ה-URL הראשונה."

בתמונת המסך למטה, תראו שכאשר אנו מפעילים את הפרומט, ייפתח דפדפן ה-Chromium ויתקשר עם כל DOM של הדף.

לבסוף, יזין את הערך פליוורייט בתיבת החיפוש, ותוכלו לראות בתמונת המסך למטה.

In the below screenshot, you can see it gives us the first URL.

בצד האחורי, ניתן לראות שכל הלוגים מופעלים; כל הלוגים שה-Agent מבצע את הלוג שלו, כל הלוגים נמצאים בצד האחורי.

תוצאה

בכרטיסיית התוצאה, ניתן לראות את התוצאה הסופית, פעולת המודל, מחשבות המודל, קובץ מעקב והיסטוריית ה-Agent.

וידאו

ניתן להוריד את הוידאו על ידי לחיצה על הקישור המסופק. ניתן גם לראות את הוידאו המצורף בתוך כרטיסיית ההקלטות.כאשר אתם מניעים את הוידאו, תראו את כל השלבים שה-Agent ביצע.

למטה תוכלו לראות כמה תמונות מסך של הוידאו.

סיכום

שילוב של LLMs, Playwright ושימוש בדפדפן מייצג קפיצת מדרגה חדשה באוטומציה של דפדפנים ותהליכים המופעלים באמצעות AI. השילוב של כלים אלה יאפשר לך ליצור סוכני דפדפן מודעים שיכולים לבצע משימות מורכבות עם התערבות אנושית מינימלית. מהאוטומציה של תהליכים חוזרים ועד לאפשרות בדיקת QA דינמית וקבלת החלטות בזמן אמת, האפשרויות הן בלתי מוגבלות.

הפניה

Source:
https://dzone.com/articles/build-ai-browser-agent-llms-playwright-browser-use