Midscene.js桥接模式下使用gpt-4o出现No visual language model (VL model) detected for the current scenario.

最近在研究AI自动化测试平台，想用Midscene.js的Bridge模式来做二次开发，过程当中遇到了些小插曲，随在此记录一下，希望能够对大家有用。

qq_35858400

386人浏览 · 2025-10-07 21:35:50

qq_35858400 · 2025-10-07 21:35:50 发布

下方为之前的探索历程（不会删除）

最近在研究AI自动化测试平台，想用Midscene.js的Bridge模式来做二次开发，过程当中遇到了些小插曲，遂在此记录一下，希望能够对大家有用。当然如果有误解或者更好的解决办法，也欢迎各位在评论区下告知小弟一声(〃￣︶￣)人(￣︶￣〃)

先说结论

Midscene.js的Bridge模式下并不支持GPT-4o（我测试的是GPT-4o，GPT全家桶没有测试）。若出现了这个问题就直接换个其他家的模型和相关的配置参数吧，这个详细的写在了Midscene.js的官方文档当中，大家可以参照一下。

debug历程（开始坐牢）

刚开始，想着插件模式和桥接模式应该差不多嘛，官方文档说默认模型是gpt-4o，我就照着Chrome插件的配置方式配了api和url。结果就发现了这个错误。于是翻了好久官方文档和源代码终于发现问题了。

翻源码发现，不同模式处理图片的方式完全不一样：

默认模式（vlMode=undefined）：在截图上画框框和数字，AI看标记定位，超准
VL模式（qwen-vl、gemini）：直接丢原图，AI自己看

gpt-4o应该用默认模式。但Bridge模式有个白名单检查，只有puppeteer、playwright、chrome-extension-proxy这几个接口类型可以用默认模式，我们的page-over-chrome-extension-bridge不在里面。

所以问题就是：

gpt-4o要用默认模式才有图像标记
Bridge模式不在白名单，强制要求设置VL模式
但VL模式只有qwen-vl、gemini这些

Chrome插件能用gpt-4o是因为它用的chrome-extension-proxy在白名单里，我们的不在。

没办法，只能妥协，代码这样写：

const testAgent = new AgentOverChromeBridge({
  modelConfig: () => ({
    MIDSCENE_OPENAI_API_KEY: process.env.OPENAI_API_KEY,
    MIDSCENE_OPENAI_BASE_URL: process.env.OPENAI_BASE_URL,
    MIDSCENE_MODEL_NAME: 'gpt-4o',
    MIDSCENE_VL_MODE: 'gemini', // 设置成gemini模式骗过检查
  })
});

注意modelConfig里的键名必须用完整的环境变量名，不能简写。

跑起来之后发现：

gpt-4o视觉能力还行，大部分能点对
没图像标记，大部分情况下会点偏

所以还是建议换成官方文档当中其他的模型，用Gemini或Qwen-VL，模式和模型完全匹配。缺点是要换API，可能要花钱。

参考：Midscene.js官方文档 | Bridge Mode文档

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大