AI控制浏览器相关MCP工具介绍

在当下 AI 赋能开发的浪潮中，让大模型与浏览器“无缝”交互，已成为提升自动化测试和智能运维效率的新趋势。无论是端到端的 UI 自动化测试，还是 AI 驱动的实时调试与性能分析，亦或是 AI 助手直接在浏览器中“上手”操作网页，浏览器控制能力已经成为了 AI+DevOps 时代的核心能力之一。

唯鹿

1915人浏览 · 2025-10-06 08:00:00

唯鹿 · 2025-10-06 08:00:00 发布

在这里插入图片描述

在当下 AI 赋能开发的浪潮中，让大模型与浏览器“无缝”交互，已成为提升自动化测试和智能运维效率的新趋势。无论是端到端的 UI 自动化测试，还是 AI 驱动的实时调试与性能分析，亦或是 AI 助手直接在浏览器中“上手”操作网页，浏览器控制能力已经成为了 AI+DevOps 时代的核心能力之一。

背景：为什么要用 MCP 赋能浏览器自动化？

在传统自动化测试世界，你可能用过 Selenium WebDriver，也可能用过 Playwright、Puppeteer。它们通过脚本驱动浏览器执行点击、输入、断言等操作。但这些方案本质上是人写脚本、机器执行脚本，缺乏与大模型或智能助手的“对话”能力，无法结合自然语言指令完成高阶任务。

Model Context Protocol（MCP） 的出现，打通了 AI 模型与浏览器底层协议的“最后一公里”，让 AI 模型能够：

动态解析网页内容，基于语义做决策
直接调用 DevTools、Playwright 等协议接口
在已有浏览器实例中执行操作，复用用户会话和登录态
实时获取浏览器日志、性能指标、网络请求等反馈

从而实现“让 AI 像真人一样操作浏览器”的体验：一句自然语言指令，就能让 AI 帮你自动登录、获取报表、抓取表格、调试性能瓶颈……而在众多 MCP 实现中，Playwright-MCP、Chrome-DevTools-MCP、mcp-chrome 以及 Cursor Browser ，代了表不同的技术路线与适用场景。

快速上手：Cursor Browser

在比较各家方案之前，先来看看 Cursor 在1.7版本中新增的 Cursor Browser。首先在设置的Beta中启用功能。

在这里插入图片描述
使用的时候记得选中Browser（或者输入@Browser），然后你就可以描述你的指令并使用 Cursor Browser了。

在这里插入图片描述
当然功能不止这么简单，你还可以截取当前屏幕的截图来改进 UI 或者调试问题。

三个MCP介绍

1. mcp-chrome

这是我最早使用的相关MCP，当时我是用它来总结需求文档内容，然后让Cursor去根据内容实现代码。

当然它的功能不止这些，它有截图、网络监控、交互操作、书签管理、浏览历史等20多种工具。具体配置和用法可以看官方文档，这里就不过多介绍。

使用起来也比较简单，安装一个chrome扩展，MCP配置连接好就可以用了。我使用了一段时间，整体还是挺好的。不过因为后来我对总结需求有了一些其他的要求和操作，所以自己写了一个扩展去实现了，所以这个MCP就逐渐用的少了。

2. Playwright-MCP

使用 Playwright 提供浏览器自动化功能的MCP服务器。它使 LLM 能够通过结构化的可访问性快照与网页进行交互，而无需使用屏幕截图或视觉调整模型。

Playwright 的主要特点包括：

跨浏览器支持：可以在多个浏览器上运行测试，包括 Chromium、WebKit 和 Firefox。也支持对 Android 版 Google Chrome 和 Mobile Safari 的原生移动设备模拟。
高性能：Playwright 通过直接与浏览器的 DevTools 协议进行通信，提供快速和可靠的测试执行。
强大的 API：提供丰富的 API，支持复杂的用户交互、网络请求监控、文件上传和下载等功能。
自动等待：内置的自动等待机制可以减少测试中的不稳定性，确保元素在操作前可用。
多语言支持：除了 JavaScript 和 TypeScript，Playwright 还支持 Python、Java 和 C# 等多种编程语言。

Playwright 适用于端到端测试、功能测试和性能测试等场景。

使用上也是很简单，MCP配置好就可以用了。如果想保留用户登录状态，信息什么的，可以安装一个chrome扩展或者配置持久配置文件。

支持的功能也很多，无头执行、截屏上传文件、导航和等待、页面交互、表单操作、内容获取、跟踪记录等，日常测试需要的功能肯定都可以满足。

在这里插入图片描述

所以如果使用场景是自动化测试，有一点就是跨浏览器支持，这里面我推荐Playwright-MCP。使用时一种可以让AI自己操作执行测试，另一种可以让AI执行和记录我们的操作（也可以录制生成脚本）。最后可以让AI生成测试报告，也可以生成脚本代码。

在这里插入图片描述

题外话：注意本地安装Node.js版本最好22及以上。文档说是18版本就可以，我自己使用18.x版本时会报错：ReferenceError: crypto is not defined。

3. Chrome-DevTools-MCP

Chrome-DevTools-MCP是上个月Chrome官方推出的MCP，将 Chrome DevTools Protocol（CDP）以 MCP 标准暴露。这一个月还在快速地迭代中。它可以让AI充分利用 Chrome DevTools 的强大功能，实现可靠的自动化、深入的调试和性能分析。

在这里插入图片描述
配置和使用方法都和上面的大同小异，比较有特点的就是性能分析。

在这里插入图片描述

在这里插入图片描述
我们可以基于分析结果和优化建议去优化我们的页面，甚至直接让AI帮我们修改。这点真的是省事非常多。更多的用法可以自己实际体验发掘，我这里就简单抛砖引玉一下。

最后我想说一下关于token消耗的问题，以playwright-mcp 为例，整体使用下来，消耗的token较多。问题原因是每一步操作会携带控制台的信息，我自己测试下来大概会多出50%。相关问题地址：https://github.com/microsoft/playwright-mcp/issues/889，目前官方没有解决这方面问题的计划。如果对token使用量敏感，且控制台信息不影响浏览器操作，可以自己修改代码实现。

总结

其实相关的工具还有很多，例如browser-use，stagehand等，也都是优秀的解决方案，适合各种不同的场景。本篇我尽量推荐一些配置简单，功能也足够用的工具，同时这些也都是我自己实际使用体验过的。

若你追求跨浏览器兼容性，并且需要在不同内核之间一键切换、并行执行，Playwright-MCP 无疑是首选。
若你更关注性能分析与调试，想获取最原生、最细粒度的浏览器内部信息，可选 Chrome-DevTools-MCP。
若你是 Cursor 用户，想要最低门槛地让 AI 助手在真实浏览器中操作，**Cursor 自带 Browser ** 则是绝佳之选。

当然，现在也有许多AI浏览器同样支持自动操作，比如perplexity推出的Comet，这种更适合多数人使用，毕竟Cursor还是偏向开发场景。我自己也试了一下，一些常用页面支持度还不错，但更偏向海外的一些网站。

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla