告别手动操作！这个开源神器让你的浏览器长出“AI大脑”

【摘要】browser-use是一款创新的开源工具，让AI能够像人类一样操作浏览器。它通过视觉标记技术，将网页元素转化为AI可识别的数字标签，结合大语言模型（如GPT-4）进行智能决策，实现精准点击、输入等操作。不同于传统自动化工具需要预设脚本，browser-use能理解自然语言指令，灵活应对网页变化。文章以自动查询携程机票为例，展示了该工具如何完成复杂表单填写和日期选择任务。其应用场景广泛，包

weixin_41246802

1428人浏览 · 2025-10-01 11:09:53

weixin_41246802 · 2025-10-01 11:09:53 发布

你是否曾被网上那些繁琐、重复的操作搞得头昏脑胀？比如，每天定时检查几十个网站的数据，手动填写数不清的在线表格，或者为了获取一些信息而在不同页面间反复横跳。

这些操作不仅耗时耗力，还毫无创造性可言。如果你的浏览器能拥有一个“AI大脑”，能理解你的指令，像一个真人助理一样帮你自动完成这些任务，那该多好？

今天，这个愿望正在成为现实！我们要介绍的主角，就是一个名为 browser-use 的开源项目。它就像一个“超级翻译官”，让AI（特别是大型语言模型LLM）能够“看懂”并“操作”你的浏览器，开启了智能网页自动化的新纪元。

1. 什么是browser-use？

简单来说，browser-use 是一个专门为AI智能体（AI Agent）设计的工具，它赋予了AI“手”和“眼”，让它们能够与任何网站进行交互。

传统的网页自动化工具（如Selenium或Playwright）虽然强大，但需要你预先编写好每一步的具体指令，比如“点击ID为‘login-button’的按钮”。一旦网页结构发生变化，脚本就可能失效，维护起来非常麻烦。

而browser-use则完全不同，它采用了一种更“智能”的模式：

• AI能“看懂”网页：它会截取网页的实时画面，并将其转换成AI能够理解的格式。AI不再是面对一堆冰冷的代码，而是像人一样“看到”了真实的页面。
• AI能“思考”如何操作：结合大型语言模型（如GPT-4）的强大推理能力，AI可以根据你下达的自然语言指令（比如“帮我登录这个网站并找到最新的3条新闻”），自主分析页面内容，并决定下一步应该做什么。
• AI能“动手”执行：一旦决定了操作步骤，browser-use就会调用底层的浏览器控制技术，精确地执行点击、输入、滚动等动作。

这个“观察-思考-行动”的循环，让AI智能体变得像一个真正的人类用户，能够灵活应对复杂的网页环境。

2. browser-use是如何工作的？

browser-use的核心魅力在于它创新的“标记”技术。想象一下，当AI需要与网页交互时，它是这样做的：

第一步：视觉标记（Tagging）

browser-use会给当前网页上所有可交互的元素（如按钮、输入框、链接等）都打上一个数字“标签”。然后，它会截取一张带有这些标签的图片。

第二步：信息打包，请求“AI大脑”

它将这张“打了标签的截图”连同你的任务指令一起发送给大型语言模型（LLM）。给LLM的指令大概是这样的：

“这是当前网页的截图，上面所有能点的东西我都给你标出来了。现在，你的任务是‘点击‘登录’按钮’。请告诉我，我应该点击哪个数字对应的元素？”

第三步：“AI大脑”给出指令

LLM在分析了图片和文字后，会发现“登录”按钮旁边的标签是“14”。于是，它会简单地回复：“14”。

第四步：精确执行

browser-use收到回复后，立即执行点击数字“14”对应元素的操作。一次精准、高效的交互就完成了！

通过这种方式，browser-use巧妙地将复杂的网页结构问题，转化成了AI最擅长的“看图说话”问题，极大地提升了AI在网页自动化任务上的准确性和鲁棒性。

3. 10分钟上手：让AI帮你抢携程机票！

理论说再多，不如来个真实世界的硬核挑战。这次，我们让AI化身出行助理，自动查询携程网站，搜索从杭州到北京的航班。这个案例将完美展示AI如何处理复杂的表单和日期选择。

第一步：环境准备与安装

首先，我们准备好AI助理运行所需的环境。

1. 安装browser-use：

# 官方推荐使用uv，一个超高速的Python包安装器

pip install uv

# 创建虚拟环境

uv venv

# 激活虚拟环境（macOS/Linux）
source .venv/bin/activate

# 此时再安装包

uv pip install browser-use

2. 安装浏览器核心：

# 这会自动下载并配置好Chromium浏览器
uvx playwright install chromium --with-deps

3. 配置你的“AI大脑”API密钥 (使用魔搭社区)：

这次我们选用带视觉多模态功能的Qwen/Qwen2.5-VL-72B-Instruct大模型作为AI的“大脑”。

• 获取API密钥：前往魔搭社区官网（https://modelscope.cn/）获取你的API密钥。

• 创建.env文件：在你的项目文件夹中，创建一个名为.env的文本文件。

• 保存密钥：在.env文件中，粘贴以下内容，并将ms-xxxx替换成你自己的密钥。

MODELSCOPE_API_KEY="ms-xxxx..."

第二步：编写你的“AI出行助理”

现在，让我们编写Python代码，指挥AI去携程网站执行查询任务。

创建一个名为ticket_agent.py的文件，然后将下面的代码完整地复制进去。

import asyncio
import os
from browser_use import Agent 
from browser_use.llm import ChatOpenAI
from dotenv import load_dotenv

# Add your custom instructions
extend_system_message = """
Remember the most important rules: 
1. When performing a search task, open https://www.ctrip.com/ first for search. 
2. Final output.
"""

# 加载刚才配置的.env文件，让程序能读取到API密钥
load_dotenv()

api_key = os.getenv('MODELSCOPE_API_KEY')
if api_key is None:
	print('Make sure you have MODELSCOPE_API_KEY:')
	print('export MODELSCOPE_API_KEY=your_key')
	exit(0)

async def main():
	llm = ChatOpenAI(
		base_url='https://api-inference.modelscope.cn/v1/',
		model='Qwen/Qwen2.5-VL-72B-Instruct',
		api_key=api_key,
	)

	agent = Agent(
		task='查询2025年10月1日从杭州到北京的机票，并总结航班、出发时间和到达时间。',
		llm=llm,
		use_vision=True,
		extend_system_message=extend_system_message,
	)
	await agent.run()


asyncio.run(main())

第三步：运行AI助理

打开你的终端，确保你在ticket_agent.py和.env文件所在的文件夹里，然后运行：

python ticket_agent.py

接下来，你将见证一个真正智能的AI助理是如何工作的。它会打开携程网站，准确地找到输入框并填写城市（即使输入框的ID很复杂），然后像人一样打开日期选择器，在日历中定位并点击“2025-10-01”，最后点击查询并为你总结航班信息。

⚠️视频有加速，实际速度要慢一些

这个案例充分证明了browser-use的强大之处：它让AI不再惧怕复杂的网页交互，能够像真人一样完成任务，为实现更高级的自动化流程提供了无限可能。

4. `browser-use`的无限可能

browser-use的出现，为我们打开了通往“万物皆可自动化”世界的大门。它的应用场景远不止于此：

• 智能数据抓取：自动从多个电商网站抓取商品价格、评论，进行比价和分析。

• 7x24小时舆情监控：实时监控社交媒体和新闻网站，一旦出现与你公司相关的负面信息，立即告警。

• 自动化测试：让AI像真实用户一样测试你的网站功能，找出潜在的Bug。

• 求职小助手：自动登录各大招聘网站，根据你的要求筛选职位并投递简历。

它将AI的“智慧”与浏览器的“执行力”完美结合，让每个人都有可能打造出属于自己的强大AI助理，将我们从繁重的重复性劳动中解放出来。

如果你对这个项目感兴趣，想亲自体验一下让浏览器“长出”AI大脑的感觉，不妨访问它的GitHub项目主页，探索更多的可能性！

想了解更多AI工具和技术趋势？关注我，每周为你带来最新的AI资讯和实用教程！

原文地址：https://mp.weixin.qq.com/s/Jt0O_NGnFW_IGFJoDrbamw

参考资料:

GitHub项目地址: https://github.com/browser-use

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla