你是否曾被网上那些繁琐、重复的操作搞得头昏脑胀?比如,每天定时检查几十个网站的数据,手动填写数不清的在线表格,或者为了获取一些信息而在不同页面间反复横跳。

这些操作不仅耗时耗力,还毫无创造性可言。如果你的浏览器能拥有一个“AI大脑”,能理解你的指令,像一个真人助理一样帮你自动完成这些任务,那该多好?

今天,这个愿望正在成为现实!我们要介绍的主角,就是一个名为 browser-use 的开源项目。它就像一个“超级翻译官”,让AI(特别是大型语言模型LLM)能够“看懂”并“操作”你的浏览器,开启了智能网页自动化的新纪元。

1. 什么是browser-use?

简单来说,browser-use 是一个专门为AI智能体(AI Agent)设计的工具,它赋予了AI“手”和“眼”,让它们能够与任何网站进行交互。

传统的网页自动化工具(如Selenium或Playwright)虽然强大,但需要你预先编写好每一步的具体指令,比如“点击ID为‘login-button’的按钮”。一旦网页结构发生变化,脚本就可能失效,维护起来非常麻烦。

browser-use则完全不同,它采用了一种更“智能”的模式:

  • • AI能“看懂”网页:它会截取网页的实时画面,并将其转换成AI能够理解的格式。AI不再是面对一堆冰冷的代码,而是像人一样“看到”了真实的页面。

  • • AI能“思考”如何操作:结合大型语言模型(如GPT-4)的强大推理能力,AI可以根据你下达的自然语言指令(比如“帮我登录这个网站并找到最新的3条新闻”),自主分析页面内容,并决定下一步应该做什么。

  • • AI能“动手”执行:一旦决定了操作步骤,browser-use就会调用底层的浏览器控制技术,精确地执行点击、输入、滚动等动作。

这个“观察-思考-行动”的循环,让AI智能体变得像一个真正的人类用户,能够灵活应对复杂的网页环境。

2. browser-use是如何工作的?

browser-use的核心魅力在于它创新的“标记”技术。想象一下,当AI需要与网页交互时,它是这样做的:

第一步:视觉标记(Tagging)

browser-use会给当前网页上所有可交互的元素(如按钮、输入框、链接等)都打上一个数字“标签”。然后,它会截取一张带有这些标签的图片。

第二步:信息打包,请求“AI大脑”

它将这张“打了标签的截图”连同你的任务指令一起发送给大型语言模型(LLM)。给LLM的指令大概是这样的:

“这是当前网页的截图,上面所有能点的东西我都给你标出来了。现在,你的任务是‘点击‘登录’按钮’。请告诉我,我应该点击哪个数字对应的元素?”

第三步:“AI大脑”给出指令

LLM在分析了图片和文字后,会发现“登录”按钮旁边的标签是“14”。于是,它会简单地回复:“14”。

第四步:精确执行

browser-use收到回复后,立即执行点击数字“14”对应元素的操作。一次精准、高效的交互就完成了!

通过这种方式,browser-use巧妙地将复杂的网页结构问题,转化成了AI最擅长的“看图说话”问题,极大地提升了AI在网页自动化任务上的准确性和鲁棒性。

3. 10分钟上手:让AI帮你抢携程机票!

理论说再多,不如来个真实世界的硬核挑战。这次,我们让AI化身出行助理,自动查询携程网站,搜索从杭州到北京的航班。这个案例将完美展示AI如何处理复杂的表单和日期选择。

第一步:环境准备与安装

首先,我们准备好AI助理运行所需的环境。

1. 安装browser-use

# 官方推荐使用uv,一个超高速的Python包安装器

pip install uv

# 创建虚拟环境

uv venv

# 激活虚拟环境(macOS/Linux)
source .venv/bin/activate

# 此时再安装包

uv pip install browser-use

2. 安装浏览器核心:

# 这会自动下载并配置好Chromium浏览器
uvx playwright install chromium --with-deps

3. 配置你的“AI大脑”API密钥 (使用魔搭社区):

这次我们选用带视觉多模态功能的Qwen/Qwen2.5-VL-72B-Instruct大模型作为AI的“大脑”。

• 获取API密钥:前往魔搭社区官网(https://modelscope.cn/)获取你的API密钥。

• 创建.env文件:在你的项目文件夹中,创建一个名为.env的文本文件。

• 保存密钥:在.env文件中,粘贴以下内容,并将ms-xxxx替换成你自己的密钥。

MODELSCOPE_API_KEY="ms-xxxx..."

第二步:编写你的“AI出行助理”

现在,让我们编写Python代码,指挥AI去携程网站执行查询任务。

创建一个名为ticket_agent.py的文件,然后将下面的代码完整地复制进去。

import asyncio
import os
from browser_use import Agent 
from browser_use.llm import ChatOpenAI
from dotenv import load_dotenv

# Add your custom instructions
extend_system_message = """
Remember the most important rules: 
1. When performing a search task, open https://www.ctrip.com/ first for search. 
2. Final output.
"""

# 加载刚才配置的.env文件,让程序能读取到API密钥
load_dotenv()

api_key = os.getenv('MODELSCOPE_API_KEY')
if api_key is None:
	print('Make sure you have MODELSCOPE_API_KEY:')
	print('export MODELSCOPE_API_KEY=your_key')
	exit(0)

async def main():
	llm = ChatOpenAI(
		base_url='https://api-inference.modelscope.cn/v1/',
		model='Qwen/Qwen2.5-VL-72B-Instruct',
		api_key=api_key,
	)

	agent = Agent(
		task='查询2025年10月1日从杭州到北京的机票,并总结航班、出发时间和到达时间。',
		llm=llm,
		use_vision=True,
		extend_system_message=extend_system_message,
	)
	await agent.run()


asyncio.run(main())

第三步:运行AI助理

打开你的终端,确保你在ticket_agent.py.env文件所在的文件夹里,然后运行:

python ticket_agent.py

接下来,你将见证一个真正智能的AI助理是如何工作的。它会打开携程网站,准确地找到输入框并填写城市(即使输入框的ID很复杂),然后像人一样打开日期选择器,在日历中定位并点击“2025-10-01”,最后点击查询并为你总结航班信息。

⚠️视频有加速,实际速度要慢一些

这个案例充分证明了browser-use的强大之处:它让AI不再惧怕复杂的网页交互,能够像真人一样完成任务,为实现更高级的自动化流程提供了无限可能。

4. browser-use的无限可能

browser-use的出现,为我们打开了通往“万物皆可自动化”世界的大门。它的应用场景远不止于此:

• 智能数据抓取:自动从多个电商网站抓取商品价格、评论,进行比价和分析。

• 7x24小时舆情监控:实时监控社交媒体和新闻网站,一旦出现与你公司相关的负面信息,立即告警。

• 自动化测试:让AI像真实用户一样测试你的网站功能,找出潜在的Bug。

• 求职小助手:自动登录各大招聘网站,根据你的要求筛选职位并投递简历。

它将AI的“智慧”与浏览器的“执行力”完美结合,让每个人都有可能打造出属于自己的强大AI助理,将我们从繁重的重复性劳动中解放出来。

如果你对这个项目感兴趣,想亲自体验一下让浏览器“长出”AI大脑的感觉,不妨访问它的GitHub项目主页,探索更多的可能性!


想了解更多AI工具和技术趋势?关注我,每周为你带来最新的AI资讯和实用教程!

原文地址:https://mp.weixin.qq.com/s/Jt0O_NGnFW_IGFJoDrbamw

参考资料:

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐