在这里插入图片描述

在当下 AI 赋能开发的浪潮中,让大模型与浏览器“无缝”交互,已成为提升自动化测试和智能运维效率的新趋势。无论是端到端的 UI 自动化测试,还是 AI 驱动的实时调试与性能分析,亦或是 AI 助手直接在浏览器中“上手”操作网页,浏览器控制能力已经成为了 AI+DevOps 时代的核心能力之一。

背景:为什么要用 MCP 赋能浏览器自动化?

在传统自动化测试世界,你可能用过 Selenium WebDriver,也可能用过 PlaywrightPuppeteer。它们通过脚本驱动浏览器执行点击、输入、断言等操作。但这些方案本质上是人写脚本、机器执行脚本,缺乏与大模型或智能助手的“对话”能力,无法结合自然语言指令完成高阶任务。

Model Context Protocol(MCP) 的出现,打通了 AI 模型与浏览器底层协议的“最后一公里”,让 AI 模型能够:

  • 动态解析网页内容,基于语义做决策
  • 直接调用 DevTools、Playwright 等协议接口
  • 在已有浏览器实例中执行操作,复用用户会话和登录态
  • 实时获取浏览器日志、性能指标、网络请求等反馈

从而实现“让 AI 像真人一样操作浏览器”的体验:一句自然语言指令,就能让 AI 帮你自动登录、获取报表、抓取表格、调试性能瓶颈……而在众多 MCP 实现中,Playwright-MCPChrome-DevTools-MCPmcp-chrome 以及 Cursor Browser ,代了表不同的技术路线与适用场景。


快速上手:Cursor Browser

在比较各家方案之前,先来看看 Cursor 在1.7版本中新增的 Cursor Browser。首先在设置的Beta中启用功能。

在这里插入图片描述
使用的时候记得选中Browser(或者输入@Browser),然后你就可以描述你的指令并使用 Cursor Browser了。

在这里插入图片描述
当然功能不止这么简单,你还可以截取当前屏幕的截图来改进 UI 或者调试问题。

三个MCP介绍

1. mcp-chrome

这是我最早使用的相关MCP,当时我是用它来总结需求文档内容,然后让Cursor去根据内容实现代码。

当然它的功能不止这些,它有截图、网络监控、交互操作、书签管理、浏览历史等20多种工具。具体配置和用法可以看官方文档,这里就不过多介绍。

使用起来也比较简单,安装一个chrome扩展,MCP配置连接好就可以用了。我使用了一段时间,整体还是挺好的。不过因为后来我对总结需求有了一些其他的要求和操作,所以自己写了一个扩展去实现了,所以这个MCP就逐渐用的少了。

2. Playwright-MCP

使用 Playwright 提供浏览器自动化功能的MCP服务器。它使 LLM 能够通过结构化的可访问性快照与网页进行交互,而无需使用屏幕截图或视觉调整模型。

Playwright 的主要特点包括:

  • 跨浏览器支持:可以在多个浏览器上运行测试,包括 ChromiumWebKitFirefox。也支持对 Android 版 Google Chrome 和 Mobile Safari 的原生移动设备模拟。
  • 高性能:Playwright 通过直接与浏览器的 DevTools 协议进行通信,提供快速和可靠的测试执行。
  • 强大的 API:提供丰富的 API,支持复杂的用户交互、网络请求监控、文件上传和下载等功能。
  • 自动等待:内置的自动等待机制可以减少测试中的不稳定性,确保元素在操作前可用。
  • 多语言支持:除了 JavaScript 和 TypeScript,Playwright 还支持 Python、Java 和 C# 等多种编程语言。

Playwright 适用于端到端测试、功能测试和性能测试等场景。

使用上也是很简单,MCP配置好就可以用了。如果想保留用户登录状态,信息什么的,可以安装一个chrome扩展或者配置持久配置文件。

支持的功能也很多,无头执行、截屏上传文件、导航和等待、页面交互、表单操作、内容获取、跟踪记录等,日常测试需要的功能肯定都可以满足。

在这里插入图片描述

所以如果使用场景是自动化测试,有一点就是跨浏览器支持,这里面我推荐Playwright-MCP。使用时一种可以让AI自己操作执行测试,另一种可以让AI执行和记录我们的操作(也可以录制生成脚本)。最后可以让AI生成测试报告,也可以生成脚本代码。

在这里插入图片描述

题外话:注意本地安装Node.js版本最好22及以上。文档说是18版本就可以,我自己使用18.x版本时会报错:ReferenceError: crypto is not defined

3. Chrome-DevTools-MCP

Chrome-DevTools-MCP是上个月Chrome官方推出的MCP,将 Chrome DevTools Protocol(CDP)以 MCP 标准暴露。这一个月还在快速地迭代中。它可以让AI充分利用 Chrome DevTools 的强大功能,实现可靠的自动化、深入的调试和性能分析

在这里插入图片描述
配置和使用方法都和上面的大同小异,比较有特点的就是性能分析。

在这里插入图片描述

在这里插入图片描述
我们可以基于分析结果和优化建议去优化我们的页面,甚至直接让AI帮我们修改。这点真的是省事非常多。更多的用法可以自己实际体验发掘,我这里就简单抛砖引玉一下。


最后我想说一下关于token消耗的问题,以playwright-mcp 为例,整体使用下来,消耗的token较多。问题原因是每一步操作会携带控制台的信息,我自己测试下来大概会多出50%。相关问题地址:https://github.com/microsoft/playwright-mcp/issues/889,目前官方没有解决这方面问题的计划。如果对token使用量敏感,且控制台信息不影响浏览器操作,可以自己修改代码实现。

总结

其实相关的工具还有很多,例如browser-usestagehand等,也都是优秀的解决方案,适合各种不同的场景。本篇我尽量推荐一些配置简单,功能也足够用的工具,同时这些也都是我自己实际使用体验过的。

  1. 若你追求跨浏览器兼容性,并且需要在不同内核之间一键切换、并行执行,Playwright-MCP 无疑是首选。
  2. 若你更关注性能分析与调试,想获取最原生、最细粒度的浏览器内部信息,可选 Chrome-DevTools-MCP
  3. 若你是 Cursor 用户,想要最低门槛地让 AI 助手在真实浏览器中操作,**Cursor 自带 Browser ** 则是绝佳之选。

当然,现在也有许多AI浏览器同样支持自动操作,比如perplexity推出的Comet,这种更适合多数人使用,毕竟Cursor还是偏向开发场景。我自己也试了一下,一些常用页面支持度还不错,但更偏向海外的一些网站。

在这里插入图片描述

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐