Browser-use:智能浏览器自动化(Web-Agent)

发布时间：2025-08-15 11:03:17编辑：Run阅读（3183）

Browser-use 是一个旨在将 AI “智能体”（Agents）与真实浏览器进行交互的 Python 库，可以轻松实现浏览器自动化。在配合 LLM（如 GPT 系列）使用时，浏览器-use 能够让你的智能体发起对网页的访问、操作页面元素、收集信息、执行脚本等，从而扩展 AI 应用的落地场景。

github地址： https://github.com/browser-use/browser-use

Browser-use工作流程图：

环境准备：

需要 Python 3.11 或更高版本，推荐在独立虚拟环境如(conda)中配置环境。

conda create --name web_agent_env python=3.12

激活虚拟环境

conda activate web_agent_env

安装 browser-use

pip3 install browser-use

安装 Playwright

playwright install

此操作会自动下载 Chromium 无头浏览器，用于后续的浏览器自动化。

配置 LLM API Keys（可选）

在 .env 文件中填写相应的 OPENAI_API_KEY、ANTHROPIC_API_KEY。

OPENAI_API_KEY=sk-xxxxxxx

如果使用其他 LLM，需要参考 LangChain 文档或对应服务提供的说明进行配置。

browser-uer Web-Agent 接口参数：

参数名称	类型	默认值	说明
task	str	无（必传）	代理需要执行的任务描述。
llm	BaseChatModel (LangChain Model)	无（必传）	主语言模型，执行对话和工具调用。
controller	object (Controller 实例)	默认Controller	自定义函数/工具调用的注册表。可参考“Custom Functions”
use_vision	bool	TRUE	是否启用视觉能力（截图+分析）。如模型支持图像输入，可显著提高网页理解；也会产生额外 token 成本。
save_conversation_path	str	无	若指定，则会将对话历史保存在该路径下，用于调试或审计。
system_prompt_class	type (自定义 System Prompt 类)	默认Prompt 类	自定义系统提示词逻辑，参考“System Prompt”定制化说明。
browser	Browser (Browser-use 实例)	无	重用已创建的 Browser 实例；若不提供，则 Agent 每次 run() 时会自动创建并关闭新的浏览器。
browser_context	BrowserContext (Playwright 实例)	无	使用已有的浏览器上下文 (Context)。适合需要维护持久会话 (cookies/localStorage) 的场景。
max_steps	int	100	允许 Agent 执行的最大步骤数，防止死循环或无限操作。

planner_llm	BaseChatModel	不启用 Planner	规划用语言模型，与主 LLM 分开；可用较小/便宜模型处理高层策略。
use_vision_for_planner	bool	TRUE	Planner 是否能使用视觉功能（若主 LLM 已开启视觉，这里可独立关闭以节省资源）。
planner_interval	int	1	Planner 模型执行间隔。即每多少步调用一次 Planner 作重新规划。
message_context	str	无	额外的任务/上下文信息，辅助 LLM 更好理解或执行任务。
initial_actions	list[dict]	无	初始化时要执行的动作列表（无需经 LLM 调用），格式为 {action_name: {...}}。
max_actions_per_step	int	10	每个步骤里可执行的最大动作数，用于控制 Agent 过度频繁操作。
max_failures	int	3	允许 Agent 失败的最大次数，超过则停止任务。
retry_delay	int (秒)	10	当遇到限流 (rate limit) 或可重试的错误时，等待多少秒后再次尝试。
generate_gif	bool 或 str (路径)	FALSE	是否录制浏览器过程生成 GIF。为 True 时自动生成随机文件名；为字符串时将 GIF 存储到该路径。

多语言模型支持

可轻松集成 LangChain 提供的各类 LLM（如 OpenAI、Anthropic、Cohere 等）进行高级任务管理。

基于 Playwright

默认使用 Playwright 进行浏览器的无头启动、页面操作和渲染控制；对常见网页交互场景提供友好的抽象。

云端版 & 本地版

除了本地安装运行外，Browser-use 也提供托管版本，可以直接在云端执行，无需配置本地环境。

Gradio UI 测试

内置示例可以利用 Gradio 搭建简易的可视化界面，方便开发者快速测试并可视化浏览器自动化流程

关键字：



搜索

热门推荐

最新文章

博主信息

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客