AI控制浏览器相关MCP工具介绍
在当下 AI 赋能开发的浪潮中,让大模型与浏览器“无缝”交互,已成为提升自动化测试和智能运维效率的新趋势。无论是端到端的 UI 自动化测试,还是 AI 驱动的实时调试与性能分析,亦或是 AI 助手直接在浏览器中“上手”操作网页,浏览器控制能力已经成为了 AI+DevOps 时代的核心能力之一。

在当下 AI 赋能开发的浪潮中,让大模型与浏览器“无缝”交互,已成为提升自动化测试和智能运维效率的新趋势。无论是端到端的 UI 自动化测试,还是 AI 驱动的实时调试与性能分析,亦或是 AI 助手直接在浏览器中“上手”操作网页,浏览器控制能力已经成为了 AI+DevOps 时代的核心能力之一。
背景:为什么要用 MCP 赋能浏览器自动化?
在传统自动化测试世界,你可能用过 Selenium WebDriver,也可能用过 Playwright、Puppeteer。它们通过脚本驱动浏览器执行点击、输入、断言等操作。但这些方案本质上是人写脚本、机器执行脚本,缺乏与大模型或智能助手的“对话”能力,无法结合自然语言指令完成高阶任务。
Model Context Protocol(MCP) 的出现,打通了 AI 模型与浏览器底层协议的“最后一公里”,让 AI 模型能够:
- 动态解析网页内容,基于语义做决策
- 直接调用 DevTools、Playwright 等协议接口
- 在已有浏览器实例中执行操作,复用用户会话和登录态
- 实时获取浏览器日志、性能指标、网络请求等反馈
从而实现“让 AI 像真人一样操作浏览器”的体验:一句自然语言指令,就能让 AI 帮你自动登录、获取报表、抓取表格、调试性能瓶颈……而在众多 MCP 实现中,Playwright-MCP、Chrome-DevTools-MCP、mcp-chrome 以及 Cursor Browser ,代了表不同的技术路线与适用场景。
快速上手:Cursor Browser
在比较各家方案之前,先来看看 Cursor 在1.7版本中新增的 Cursor Browser。首先在设置的Beta中启用功能。

使用的时候记得选中Browser(或者输入@Browser),然后你就可以描述你的指令并使用 Cursor Browser了。

当然功能不止这么简单,你还可以截取当前屏幕的截图来改进 UI 或者调试问题。
三个MCP介绍
1. mcp-chrome
这是我最早使用的相关MCP,当时我是用它来总结需求文档内容,然后让Cursor去根据内容实现代码。
当然它的功能不止这些,它有截图、网络监控、交互操作、书签管理、浏览历史等20多种工具。具体配置和用法可以看官方文档,这里就不过多介绍。
使用起来也比较简单,安装一个chrome扩展,MCP配置连接好就可以用了。我使用了一段时间,整体还是挺好的。不过因为后来我对总结需求有了一些其他的要求和操作,所以自己写了一个扩展去实现了,所以这个MCP就逐渐用的少了。
2. Playwright-MCP
使用
Playwright提供浏览器自动化功能的MCP服务器。它使 LLM 能够通过结构化的可访问性快照与网页进行交互,而无需使用屏幕截图或视觉调整模型。
Playwright 的主要特点包括:
- 跨浏览器支持:可以在多个浏览器上运行测试,包括
Chromium、WebKit和Firefox。也支持对 Android 版 Google Chrome 和 Mobile Safari 的原生移动设备模拟。 - 高性能:
Playwright通过直接与浏览器的DevTools协议进行通信,提供快速和可靠的测试执行。 - 强大的 API:提供丰富的 API,支持复杂的用户交互、网络请求监控、文件上传和下载等功能。
- 自动等待:内置的自动等待机制可以减少测试中的不稳定性,确保元素在操作前可用。
- 多语言支持:除了 JavaScript 和 TypeScript,Playwright 还支持 Python、Java 和 C# 等多种编程语言。
Playwright 适用于端到端测试、功能测试和性能测试等场景。
使用上也是很简单,MCP配置好就可以用了。如果想保留用户登录状态,信息什么的,可以安装一个chrome扩展或者配置持久配置文件。
支持的功能也很多,无头执行、截屏上传文件、导航和等待、页面交互、表单操作、内容获取、跟踪记录等,日常测试需要的功能肯定都可以满足。

所以如果使用场景是自动化测试,有一点就是跨浏览器支持,这里面我推荐Playwright-MCP。使用时一种可以让AI自己操作执行测试,另一种可以让AI执行和记录我们的操作(也可以录制生成脚本)。最后可以让AI生成测试报告,也可以生成脚本代码。

题外话:注意本地安装Node.js版本最好22及以上。文档说是18版本就可以,我自己使用18.x版本时会报错:ReferenceError: crypto is not defined。
3. Chrome-DevTools-MCP
Chrome-DevTools-MCP是上个月Chrome官方推出的MCP,将 Chrome DevTools Protocol(CDP)以 MCP 标准暴露。这一个月还在快速地迭代中。它可以让AI充分利用 Chrome DevTools 的强大功能,实现可靠的自动化、深入的调试和性能分析。

配置和使用方法都和上面的大同小异,比较有特点的就是性能分析。


我们可以基于分析结果和优化建议去优化我们的页面,甚至直接让AI帮我们修改。这点真的是省事非常多。更多的用法可以自己实际体验发掘,我这里就简单抛砖引玉一下。
最后我想说一下关于token消耗的问题,以playwright-mcp 为例,整体使用下来,消耗的token较多。问题原因是每一步操作会携带控制台的信息,我自己测试下来大概会多出50%。相关问题地址:https://github.com/microsoft/playwright-mcp/issues/889,目前官方没有解决这方面问题的计划。如果对token使用量敏感,且控制台信息不影响浏览器操作,可以自己修改代码实现。
总结
其实相关的工具还有很多,例如browser-use,stagehand等,也都是优秀的解决方案,适合各种不同的场景。本篇我尽量推荐一些配置简单,功能也足够用的工具,同时这些也都是我自己实际使用体验过的。
- 若你追求跨浏览器兼容性,并且需要在不同内核之间一键切换、并行执行,Playwright-MCP 无疑是首选。
- 若你更关注性能分析与调试,想获取最原生、最细粒度的浏览器内部信息,可选 Chrome-DevTools-MCP。
- 若你是 Cursor 用户,想要最低门槛地让 AI 助手在真实浏览器中操作,**Cursor 自带 Browser ** 则是绝佳之选。
当然,现在也有许多AI浏览器同样支持自动操作,比如perplexity推出的Comet,这种更适合多数人使用,毕竟Cursor还是偏向开发场景。我自己也试了一下,一些常用页面支持度还不错,但更偏向海外的一些网站。

更多推荐
所有评论(0)