Browser-use:智能浏览器自动化(Web-Agent)

发布时间:2025-08-15 11:03:17编辑:Run阅读(19)

    Browser-use 是一个旨在将 AI “智能体”(Agents)与真实浏览器进行交互的 Python 库,可以轻松实现浏览器自动化。在配合 LLM(如 GPT 系列)使用时,浏览器-use 能够让你的智能体发起对网页的访问、操作页面元素、收集信息、执行脚本等,从而扩展 AI 应用的落地场景。


    github地址: https://github.com/browser-use/browser-use


    Browser-use工作流程图:

    image.png


    环境准备:

    需要 Python 3.11 或更高版本,推荐在独立虚拟环境如(conda)中配置环境。

    conda create --name web_agent_env python=3.12


    激活虚拟环境

    conda activate web_agent_env


    安装 browser-use

    pip3 install browser-use


    安装 Playwright

    playwright install

    此操作会自动下载 Chromium 无头浏览器,用于后续的浏览器自动化。


    配置 LLM API Keys(可选)

    在 .env 文件中填写相应的 OPENAI_API_KEY、ANTHROPIC_API_KEY。

    OPENAI_API_KEY=sk-xxxxxxx

    如果使用其他 LLM,需要参考 LangChain 文档或对应服务提供的说明进行配置。


    browser-uer Web-Agent 接口参数:

    参数名称类型默认值说明
    taskstr无(必传)代理需要执行的任务描述。
    llmBaseChatModel (LangChain Model)无(必传)主语言模型,执行对话和工具调用。
    controllerobject (Controller 实例)默认Controller自定义函数/工具调用的注册表。可参考“Custom Functions”
    use_visionboolTRUE是否启用视觉能力(截图+分析)。如模型支持图像输入,可显著提高网页理解;也会产生额外 token 成本。
    save_conversation_pathstr若指定,则会将对话历史保存在该路径下,用于调试或审计。
    system_prompt_classtype (自定义 System Prompt 类)默认Prompt 类自定义系统提示词逻辑,参考“System Prompt”定制化说明。
    browserBrowser (Browser-use 实例)
    重用已创建的 Browser 实例;若不提供,则 Agent 每次 run() 时会自动创建并关闭新的浏览器。
    browser_contextBrowserContext (Playwright 实例)使用已有的浏览器上下文 (Context)。适合需要维护持久会话 (cookies/localStorage) 的场景。
    max_stepsint100允许 Agent 执行的最大步骤数,防止死循环或无限操作。
    planner_llmBaseChatModel不启用 Planner规划用语言模型,与主 LLM 分开;可用较小/便宜模型处理高层策略。
    use_vision_for_plannerboolTRUEPlanner 是否能使用视觉功能(若主 LLM 已开启视觉,这里可独立关闭以节省资源)。
    planner_intervalint1Planner 模型执行间隔。即每多少步调用一次 Planner 作重新规划。
    message_contextstr额外的任务/上下文信息,辅助 LLM 更好理解或执行任务。
    initial_actionslist[dict]初始化时要执行的动作列表(无需经 LLM 调用),格式为 {action_name: {...}}。
    max_actions_per_stepint10每个步骤里可执行的最大动作数,用于控制 Agent 过度频繁操作。
    max_failuresint3允许 Agent 失败的最大次数,超过则停止任务。
    retry_delayint (秒)10当遇到限流 (rate limit) 或可重试的错误时,等待多少秒后再次尝试。
    generate_gifbool 或 str (路径)FALSE是否录制浏览器过程生成 GIF。为 True 时自动生成随机文件名;为字符串时将 GIF 存储到该路径。

    多语言模型支持

    可轻松集成 LangChain 提供的各类 LLM(如 OpenAI、Anthropic、Cohere 等)进行高级任务管理。

    模型

    所属/类型

    GPT-4oOpenAI
    ClaudeAnthropic
    AzureAzure OpenA
    GeminiGoogle Generative AI
    DeepSeek-V3DeepSeek
    DeepSeek-R1DeepSeek
    Ollama本地模型 (需安装 Ollama)


    基于 Playwright

    默认使用 Playwright 进行浏览器的无头启动、页面操作和渲染控制;对常见网页交互场景提供友好的抽象。


    云端版 & 本地版

    除了本地安装运行外,Browser-use 也提供托管版本,可以直接在云端执行,无需配置本地环境。


    Gradio UI 测试

    内置示例可以利用 Gradio 搭建简易的可视化界面,方便开发者快速测试并可视化浏览器自动化流程


关键字

上一篇: 使用 LangChain 实现本地 Agent

下一篇: 没有了