发布时间:2025-08-15 11:03:17编辑:Run阅读(19)
Browser-use 是一个旨在将 AI “智能体”(Agents)与真实浏览器进行交互的 Python 库,可以轻松实现浏览器自动化。在配合 LLM(如 GPT 系列)使用时,浏览器-use 能够让你的智能体发起对网页的访问、操作页面元素、收集信息、执行脚本等,从而扩展 AI 应用的落地场景。
github地址: https://github.com/browser-use/browser-use
Browser-use工作流程图:
环境准备:
需要 Python 3.11 或更高版本,推荐在独立虚拟环境如(conda)中配置环境。
conda create --name web_agent_env python=3.12
激活虚拟环境
conda activate web_agent_env
安装 browser-use
pip3 install browser-use
安装 Playwright
playwright install
此操作会自动下载 Chromium 无头浏览器,用于后续的浏览器自动化。
配置 LLM API Keys(可选)
在 .env 文件中填写相应的 OPENAI_API_KEY、ANTHROPIC_API_KEY。
OPENAI_API_KEY=sk-xxxxxxx
如果使用其他 LLM,需要参考 LangChain 文档或对应服务提供的说明进行配置。
browser-uer Web-Agent 接口参数:
参数名称 | 类型 | 默认值 | 说明 |
task | str | 无(必传) | 代理需要执行的任务描述。 |
llm | BaseChatModel (LangChain Model) | 无(必传) | 主语言模型,执行对话和工具调用。 |
controller | object (Controller 实例) | 默认Controller | 自定义函数/工具调用的注册表。可参考“Custom Functions” |
use_vision | bool | TRUE | 是否启用视觉能力(截图+分析)。如模型支持图像输入,可显著提高网页理解;也会产生额外 token 成本。 |
save_conversation_path | str | 无 | 若指定,则会将对话历史保存在该路径下,用于调试或审计。 |
system_prompt_class | type (自定义 System Prompt 类) | 默认Prompt 类 | 自定义系统提示词逻辑,参考“System Prompt”定制化说明。 |
browser | Browser (Browser-use 实例) | 无 | 重用已创建的 Browser 实例;若不提供,则 Agent 每次 run() 时会自动创建并关闭新的浏览器。 |
browser_context | BrowserContext (Playwright 实例) | 无 | 使用已有的浏览器上下文 (Context)。适合需要维护持久会话 (cookies/localStorage) 的场景。 |
max_steps | int | 100 | 允许 Agent 执行的最大步骤数,防止死循环或无限操作。 |
planner_llm | BaseChatModel | 不启用 Planner | 规划用语言模型,与主 LLM 分开;可用较小/便宜模型处理高层策略。 |
use_vision_for_planner | bool | TRUE | Planner 是否能使用视觉功能(若主 LLM 已开启视觉,这里可独立关闭以节省资源)。 |
planner_interval | int | 1 | Planner 模型执行间隔。即每多少步调用一次 Planner 作重新规划。 |
message_context | str | 无 | 额外的任务/上下文信息,辅助 LLM 更好理解或执行任务。 |
initial_actions | list[dict] | 无 | 初始化时要执行的动作列表(无需经 LLM 调用),格式为 {action_name: {...}}。 |
max_actions_per_step | int | 10 | 每个步骤里可执行的最大动作数,用于控制 Agent 过度频繁操作。 |
max_failures | int | 3 | 允许 Agent 失败的最大次数,超过则停止任务。 |
retry_delay | int (秒) | 10 | 当遇到限流 (rate limit) 或可重试的错误时,等待多少秒后再次尝试。 |
generate_gif | bool 或 str (路径) | FALSE | 是否录制浏览器过程生成 GIF。为 True 时自动生成随机文件名;为字符串时将 GIF 存储到该路径。 |
多语言模型支持
可轻松集成 LangChain 提供的各类 LLM(如 OpenAI、Anthropic、Cohere 等)进行高级任务管理。
模型 | 所属/类型 |
GPT-4o | OpenAI |
Claude | Anthropic |
Azure | Azure OpenA |
Gemini | Google Generative AI |
DeepSeek-V3 | DeepSeek |
DeepSeek-R1 | DeepSeek |
Ollama | 本地模型 (需安装 Ollama) |
基于 Playwright
默认使用 Playwright 进行浏览器的无头启动、页面操作和渲染控制;对常见网页交互场景提供友好的抽象。
云端版 & 本地版
除了本地安装运行外,Browser-use 也提供托管版本,可以直接在云端执行,无需配置本地环境。
Gradio UI 测试
内置示例可以利用 Gradio 搭建简易的可视化界面,方便开发者快速测试并可视化浏览器自动化流程
下一篇: 没有了
49925
49172
39842
36885
31282
28126
27077
21873
21807
20155
19°
119°
110°
280°
300°
918°
1674°
1591°
1302°
2652°