Постройте браузерного агента с помощью LLMs, Playwright, использования браузера

Использование браузера — это инструмент или платформа, предназначенная для того, чтобы позволить ИИ-агентам (таким как модели GPT от OpenAI или другие крупные языковые модели) взаимодействовать с веб-браузерами и контролировать их интеллектуальным и автоматизированным образом. По сути, она заполняет разрыв между возможностями ИИ и реальными взаимодействиями с браузером, позволяя ИИ-системам выполнять такие задачи, как навигация по веб-сайтам, извлечение данных, заполнение форм, нажатие кнопок и многое другое — так же, как это делает человек.

Основная цель Использования Браузера состоит в том, чтобы сделать веб-сайты доступными и действующими для ИИ-агентов, абстрагируя сложности автоматизации браузеров. Вместо того чтобы требовать от разработчиков написания сложных скриптов для поиска и взаимодействия с элементами веб-страницы, Использование Браузера упрощает этот процесс, извлекая все интерактивные элементы (такие как кнопки, поля ввода, ссылки и т. д.) и предоставляя структурированный интерфейс для взаимодействия ИИ-агентов.

Ключевые характеристики Использования Браузера

Автоматизация на основе ИИ

Использование Браузера использует ИИ для понимания и взаимодействия с веб-страницами. Например, он может анализировать содержание веб-страницы, определять соответствующие действия (такие как нажатие кнопки или заполнение формы) и выполнять эти действия автономно.

Визуализация + Извлечение HTML

Он сочетает визуальное понимание (распознавание элементов на экране) с извлечением структуры HTML (парсинг основного кода веб-страницы). Этот двойной подход гарантирует, что ИИ-агенты могут взаимодействовать как со статическими, так и с динамическими веб-элементами, даже если у них нет четких идентификаторов, таких как ID или классы.

Управление несколькими вкладками

Использование браузера может обрабатывать несколько вкладок браузера одновременно, позволяя искусственным интеллектуальным агентам выполнять сложные рабочие процессы, которые включают взаимодействие с несколькими веб-страницами одновременно.

Инструмент отслеживает точные действия, выполняемые искусственным интеллектуальным агентом (например, нажатие кнопки или заполнение формы), и может последовательно воспроизводить эти действия, даже если макет веб-сайта немного изменится. Это особенно полезно для создания самовосстанавливающихся тестов в автоматизации QA.

Пользовательские действия

Пользователи могут расширить использование браузера, добавив пользовательские действия, такие как сохранение данных в файлы, выполнение операций с базой данных, отправку уведомлений или обработку ввода пользователя на определенных этапах в процессе автоматизации.

Самокоррекция

Использование браузера включает интеллектуальное обработку ошибок и механизмы автоматического восстановления. Если что-то идет не так во время автоматизации (например, отсутствует элемент или сетевое время ожидания), инструмент может обнаружить проблему и попытаться восстановиться автоматически, обеспечивая продолжение рабочих процессов без прерываний.

Совместимость с несколькими LLM

Использование браузера поддерживает различные большие языковые модели (LLM), включая GPT-4 от OpenAI, Claude от Anthropic и Llama 2 от Meta. Эта гибкость позволяет пользователям выбирать лучшую модель ИИ для своих конкретных потребностей.

Как работает использование браузера

Использование браузера сканирует веб-страницу и извлекает все интерактивные элементы (кнопки, поля ввода, ссылки, формы и т. д.). Затем он предоставляет структурированное представление этих элементов, которое могут понимать и с которым могут взаимодействовать искусственные интеллектуальные агенты.

Взаимодействие с искусственным интеллектом

После того как интерактивные элементы определены, искусственные интеллектуальные агенты могут выполнять действия, такие как нажатие кнопок, заполнение форм, навигация между страницами или извлечение данных. Искусственный интеллект также может проанализировать содержимое веб-страницы и принимать решения на основе обнаруженной информации.

Автоматизация рабочих процессов

Использование браузера позволяет пользователям создавать сложные рабочие процессы автоматизации. Например, искусственный интеллект может пройти через сайт электронной коммерции, добавить товары в корзину и завершить покупку — все это без участия человека.

Обработка ошибок и восстановление

Если что-то идет не так в процессе автоматизации (например, отсутствующий элемент или медленно загружающаяся страница), использование браузера может обнаружить проблему и попытаться восстановиться автоматически. Это гарантирует плавное продолжение рабочих процессов, даже в непредсказуемых средах.

Руководство по установке

Для начала работы с использованием браузера необходимо выполнить некоторую начальную настройку, чтобы все работало без сбоев. Ниже приведено подробное руководство по установке на основе предоставленных вами предварительных требований и шагов. Это руководство поможет вам настроить использование браузера локально на вашем компьютере.

Предварительные требования

Прежде чем начать, убедитесь, что ваша система соответствует следующим требованиям:

  • Python 3.11 или выше. Вы можете проверить свою версию Python, запустив команду:
    Python

     

  • Git. Git необходим для клонирования репозитория

Локальная установка

Шаг 1: Клонирование репозитория

Shell

 

Шаг 2: Настройка среды Python

Мы рекомендуем использовать uv для управления средой Python (рекомендуется для Mac):

Shell

 

1. Create a virtual environment. Run the following command to create a virtual environment with Python 3.11:

Shell

 

2. Activate the virtual environment.
  • Windows (командная строка):
    Shell

  • macOS/Linux:
    Shell

После активации вы должны увидеть .venv в вашем приглашении терминала, что указывает на активное виртуальное окружение.

Шаг 3: Установка зависимостей

Теперь, когда ваше окружение настроено, пришло время установить необходимые зависимости.

Установка пакетов Python. Используйте следующую команду для установки необходимых пакетов Python, перечисленных в requirements.txt:

Shell

 

Шаг 4: Установка Playwright

Playwright – это библиотека автоматизации браузера, используемая Browser Use.

Чтобы установить ее, выполните команду:

Shell

 

Руководство по локальной настройке для использования веб-интерфейса Browser Use

После завершения шагов установки для использования Browser Use, вы можете начать запускать веб-интерфейс локально. Это руководство поможет вам запустить приложение, настроить его параметры и настроить его для использования вашего собственного браузера, если это необходимо.

Запуск веб-интерфейса

После завершения установки шагов вы можете запустить веб-интерфейс Browser Use, выполнив следующую команду:

Shell

 

Веб-интерфейс предоставляет несколько вариантов настройки его поведения. Вот обзор доступных флагов:

  • --ip– IP-адрес, к которому привязать веб-интерфейс
    • По умолчанию – 127.0.0.1 (localhost)
  • --port– порт, к которому привязать веб-интерфейс
    • По умолчанию – 7788
  • --тема – тема пользовательского интерфейса

Доступ к WebUI

После запуска WebUI откройте веб-браузер и перейдите по адресу:

Plain Text

 

Once the above command is executed, you should see the Browser Use interface, where you can interact with the tool and configure AI-driven browser automation tasks.

Настройка LLM

В настройках LLM выберите языковую модель, например, gemini. Gemini предоставляет бесплатный API-ключ.

Generate the API keys from the link attached below.

На скриншоте ниже вы можете видеть, что мы добавили API-ключи, сгенерированные по указанной ссылке.

Запуск Агента

В разделе Запуск агента давайте ввести запрос “перейти на amazon.in и ввести ‘Playwright’, нажать поиск и дать мне первый URL.”

На скриншоте ниже вы можете видеть, что при выполнении запроса откроется браузер Chromium и взаимодействует со всем DOM страницы.

Наконец, он введет значение Playwright в поле поиска, и вы увидите нижний скриншот.

In the below screenshot, you can see it gives us the first URL.

На фоне вы можете видеть, что все журналы выполнены; все журналы, которые выполняет агент, находятся на фоне.

Результат

На вкладке результат вы можете увидеть окончательный результат, действия модели, мысли модели, файл трассировки и историю агента.

Видео

Вы можете скачать видео, нажав на предоставленную ссылку. Вы также можете увидеть прикрепленное видео на вкладке Записи. Когда вы запустите видео, вы увидите все шаги, которые выполнял агент.

Ниже приведены некоторые скриншоты видео.

Заключение

Интеграция LLMs, Playwright и Browser Use представляет собой новый прорыв в автоматизации браузера и рабочих процессов, управляемых искусственным интеллектом. Комбинирование этих инструментов позволит вам создавать интеллектуальных агентов браузера, способных выполнять сложные задачи с минимальным вмешательством человека. От автоматизации повторяющихся процессов до обеспечения динамичного тестирования качества и принятия решений в реальном времени, возможности бесконечны.

Ссылка

Source:
https://dzone.com/articles/build-ai-browser-agent-llms-playwright-browser-use