SurgRAW:用于手术智能的基于思维链推理的多代理工作流
将视觉语言模型(VLM)集成到手术智能中受到幻觉、领域知识差距和对手术场景内任务间依赖关系理解不足的影响,从而削弱了其临床可靠性。尽管最近的VLM表现出强大的通用推理和思考能力,但它们仍缺乏精确解释手术场景所需的专业知识和任务意识。虽然思维链(CoT)可以更有效地结构化推理,但当前方法依赖于自动生成的CoT步骤,这往往会加剧固有的领域差距和幻觉问题。为了解决这一问题,我们提出了SurgRAW,这是
将视觉语言模型(VLM)集成到手术智能中受到幻觉、领域知识差距和对手术场景内任务间依赖关系理解不足的影响,从而削弱了其临床可靠性。尽管最近的VLM表现出强大的通用推理和思考能力,但它们仍缺乏精确解释手术场景所需的专业知识和任务意识。虽然思维链(CoT)可以更有效地结构化推理,但当前方法依赖于自动生成的CoT步骤,这往往会加剧固有的领域差距和幻觉问题。为了解决这一问题,我们提出了SurgRAW,这是一个基于CoT驱动的多代理框架,能够为机器人辅助手术中的大多数任务提供透明且可解释的见解。通过在五个任务中使用专门设计的CoT提示符——包括器械识别、动作识别、动作预测、患者数据提取和结果评估,SurgRAW通过结构化和领域感知的推理减轻了幻觉问题。还集成了检索增强生成(RAG),以引入外部医学知识来弥合领域差距并提高响应可靠性。最重要的是,分层代理系统确保嵌入CoT的VLM代理能够有效协作,同时理解任务间的依赖关系,而小组讨论机制则促进逻辑一致性。为了评估我们的方法,我们引入了SurgCoTBench,这是第一个具有结构化帧级注释的基于推理的数据集。通过全面的实验,我们在12个机器人程序上展示了SurgRAW的有效性,相较于基准VLM,准确率提高了29.32%,实现了最先进的性能,并推动了可解释、可信和自主的手术辅助技术的发展。数据集和代码可在https://github.com/jinlab-imvr/SurgRAW获得。V+cadorai,回复:AIGC++,可即时关注作者动态。
手术场景理解是现代手术智能的基础。它有助于实时监控手术过程,增强术中支持,并最终改善交付和服务成果。由于手术视频的内在复杂性,全面分析需要从多个角度进行观察,涵盖动作、器械和与患者相关的因素。在手术室中,手术团队被分配特定角色,系统地对每个程序步骤进行推理,并通过协作贡献详细的总体分析 (Padoy 2019) 。这个过程耗时费力,通过计算机智能实现术中决策自动化具有显著提高效率的潜力 (Soares 和 Chand 2025) 。
多种AI驱动的方法 (Jin 等人. 2017, 2020; Twinanda 等人. 2016) 已经开发出来解决这些问题。这些模型解决了手术工作流分析中的具体任务,包括工作流识别、器械识别和错误检测 (Seenivasan 等人. 2022; Chen 等人. 2024; X. Gao 等人. 2021; Psychogyios 等人. 2023; Jin 等人. 2017; Shao 等人. 2024; Holm 等人. 2023; Yuan 等人. 2025) 。然而,这些方法采用端到端网络生成结果而不提供进一步解释,限制了可解释性。此外,不同任务的模型架构差异显著,需要仔细设计并收集任务特定的数据进行训练。这些挑战阻碍了统一且可解释的手术智能系统的开发。最近,通用大语言模型(LLM)的发展因其强大的推理能力引起了关注 (Achiam 等人. 2023) 。 LLM可以根据人类提示执行各种任务,同时提供推理过程,并且当提示中包含额外信息时可以进一步提高响应质量。基于LLM,VLM扩展了其处理视觉输入的能力,并在各种应用中表现出色,突显了其在手术场景理解中的潜力。
然而,直接将VLM应用于手术领域仍然面临挑战:i) VLM极易产生幻觉,响应结果会因提示内容的不同而显著变化,即使对于相同的问题也是如此,影响了其可靠性。ii) 主要针对自然场景训练的VLM缺乏手术知识,往往导致不准确的响应,进一步加剧了幻觉问题 (Yuan 等人. 2025) 。iii) VLM独立处理不同的手术任务,忽略了它们在整个工作流中的相互联系。因此,当手术任务被简单地表述为多项选择题(MCQ)时,VLM表现不佳。一些方法 (Lin 等人. 2023; C. Li 等人. 2023) 尝试微调VLM以适应特定领域;然而,手术领域缺乏大规模高质量数据,难以实现有效的微调。为缓解这些限制,类似LLaVA-COT 的方法 (Xu 等人. 2024) 使用LLM生成详细的CoT作为提示符,以增强零样本VLM的响应效果。然而,没有领域特定知识的情况下,这些自动生成的CoT在手术背景下仍然不可靠,仍需进一步研究如何将VLM集成到手术智能中。

为了解决这些问题,我们提出了一种 R 推理多 A 代理 W 工作流用于 Surg 手术智能,称为SurgRAW。类似于现实世界的手术团队合作,SurgRAW通过分层协调器将手术场景理解中的不同任务分配给专门的VLM代理,并整合它们的响应以优化最终答案。具体而言,我们不是微调VLM或依赖LLM生成的CoT,而是为每个任务设计特定的CoT提示符。这些提示符通过确保稳健且可解释的推理来减轻幻觉问题。通过引导逐步的逻辑推导,它们提高了响应的准确性和可解释性。此外,我们集成了RAG工具以弥补领域差距,确保决策基于专业的领域特定手术资源,进一步提高系统的可靠性。此外,SurgRAW引入了一种新的小组讨论机制,启动多代理协作和辩论。通过验证不同代理之间响应和中间步骤的一致性,SurgRAW促进了代理之间的丰富互动,使对手术视频的分析更加全面。总的来说,我们的贡献可以概括为以下几个方面:
- 我们介绍了SurgRAW,这是第一个能够在整个手术工作流中解决所有主要问题的同时增强可解释性的框架。
- 模仿外科医生的认知过程,我们通过任务特定的CoT提示符增强了VLM代理,实现了透明且逐步的分析。
- 进一步引入了小组讨论机制和RAG模块,使代理能够共享见解并生成可靠的响应。
- 我们引入了一个新基准来评估我们的框架,这是第一个涵盖同一手术场景中所有任务的基准。
2 方法论
2.1 手术多代理工作流
手术场景理解需要同时具备视觉语义感知和
认知推理能力,每种能力都有不同的处理需求。手术工作流中的任务分为两类:视觉语义任务,涉及细粒度的动作和器械识别的感知场景分析;认知推理任务,则依赖于程序推理和更深的情境理解以支持决策制定。为了有效应对这些任务,我们提出了SurgRAW来高效处理每个任务,如图 [fig:main] 所示。SurgRAW采用分层协调系统,其中第一层协调器,即部门协调员,首先将每个查询分类为视觉语义或认知推理。第二层协调器,视觉语义部门主管或认知推理部门主管,将任务引导至具体的任务级代理。本研究探讨了手术工作流中的五个关键任务,包括五个相应的代理:动作解释器、动作预测器、器械专家、结果分析师和患者倡导者。
为进一步提升推理透明度和可靠性,我们将明确的推理能力集成到核心代理中,将其转化为嵌入CoT的VLM代理,生成透明且基于证据的响应。此外,设计了一个评估代理用于小组讨论,该代理验证手术动作和器械使用,促进视觉语义任务中的复杂场景解释。同时,SurgRAW通过结合RAG来增强认知推理任务,提供更具情境意识的建议并优化决策制定。详细设计将在以下章节介绍。
2.2 思维链提示生成
外科医生通过结构化的认知过程来分析手术场景,首先对临床问题进行初步评估以确定分析的重点。随后,他们识别关键解剖结构,解读功能背景,并通过整合先验知识和手术经验来消除歧义,完善理解 (Hashimoto 等, 2018; Liu 等, 2025; Manning, 2009; Medicine (US). Friends, 2006) 。我们的CoT提示模仿这种思维过程,将手术图像分析结构化为顺序推理步骤,指导像GPT-4o这样的VLM模拟专家级别的决策 (Achiam 等, 2023) 。为了有效应对多样化的手术推理需求,我们设计了五种专门的任务特定CoT,分为两大类:视觉语义推理和认知推理。
视觉语义任务涵盖了动作识别和器械识别,两者都依赖视觉语义来提取和分析场景级细节。这些CoT从问题分析开始,确定焦点并定位相应的目标。在动作识别中,模型提取上下文元素,如对象、动作和环境,以建立情境理解,而器械识别则需要更高层次的视觉感知,分析诸如钳口配置、表面细节和杆设计等属性。两种CoT均包含验证步骤,通过交叉检查观察结果与视觉线索,系统地排除错误选项并选择最佳匹配。

我们的认知推理任务,包括手术计划、手术结果和患者详情,通过结合程序和情境理解,将推理扩展到直接图像解释之外。这些任务从问题分解开始,将询问拆分为更小的子问题以澄清意图并指导分析。接下来,CoT从手术图像中提取相关特征,识别关键视觉元素,如器械、解剖结构和程序背景。随着推理的进展,后续的思维链根据问题类型采取不同的方法。手术计划重点预测下一步程序步骤,结合图像证据和手术规范,而手术结果则评估步骤的重要性及其广泛影响。同时,患者详情提取人口统计或状态相关信息,将观察结果与文本线索对齐。推理过程然后推进到交叉引用检索到的领域洞察与程序知识,以确保一致性,消除矛盾后选择最有力支持的答案。尽管所有任务遵循这一通用的结构化框架,但它们的领域特定推理确保了跨不同类型问题的定制且系统化的决策。
2.3 通过补充模块加强专业知识
视觉语义任务的小组讨论。 尽管通过CoT获得了强大的推理能力,多代理协作可以通过任务级代理进一步实现更全面的分析 (Kim 等, 2025; B. Li 等, 2024) 。视觉语义任务尤其需要情境意识和交叉验证以确保程序准确性。例如,在进行操作之前,动作解释器可能会咨询器械专家以确认手术器械的身份或存在。为了解决这一挑战,SurgRAW引入了一个动作评估器,通过小组讨论机制确保逻辑连贯性和一致性。该机制从三个角度运作:i) 为保护预测级别的一致性,动作评估器整合了来自达芬奇手术机器人官方规格的信息生成的知识图谱 (Intuitive Surgical, 2024) 。此图谱编码允许的器械-动作关系,使器械专家和动作解释器能够交叉参考他们的预测并保持程序对齐。ii) 为增强推理级别的一致性和质量,动作评估器采用两个额外的结构化评分标准:连贯性评分标准评估任务内思维链的逻辑一致性,确保可靠的推理过程。同时,协同增效评分标准评估代理如何增强彼此的预测,同时减少误差传播,防止早期不一致影响最终决策。这些评估促进了代理间的协同作用,并进一步强化了基于证据的推理。
RAG用于认知推理任务。 为了加强认知推理
决策制定,SurgRAW 集成 RAG 模块以提高响应的可靠性和相关性 (Y. Gao 等, 2023; Lewis 等, 2020) 。认知推理部门负责人查询存储库,其中包含 MedlinePlus 提供的医疗资源 (Medicine (US). Friends, 2006; Miller, Lacroix, and Backus, 2000) 。检索到的内容动态集成到相应的 CoT 嵌入式 VLM 代理中,允许它们通过交叉引用验证的医疗信息来细化输出。这确保了与既定医疗标准的对齐,同时减少了幻觉现象。通过系统验证观察结果和交叉引用证据,RAG 提高了 SurgRAW 的可靠性,使 AI 驱动的手术支持更加透明和临床可行。

3 实验
数据集。 我们引入了 SurgCoTBench,这是一个基于推理的机器人辅助手术基准。它由12位患者在前列腺切除术和肺叶切除术中构建而成,涵盖了五个关键手术任务,提供了整个手术工作流程的帧级覆盖。数据集包含2,277帧和14,176个视觉-查询对。按照已建立的数据集收集方法 (Yuan 等, 2023; Schmidgall 等, 2024; J. Li 等, 2024) ,我们从YouTube获取手术视频,并使用WhisperX (Radford 等, 2023) 提取转录稿。视频随后以1 fps下采样,选择捕捉关键程序时刻的帧,例如前列腺切除术中的膀胱颈分离和肺叶切除术中的淋巴结分离。每帧都被标注了五种问题类型,涵盖器械识别、动作识别、动作预测、患者数据提取和结果评估。为了精炼数据集,器械识别和动作识别被分为左右视角,每帧最多生成七对问答。GPT-4o (Achiam 等, 2023) 生成所有问题的多项选择题,随后进行人工验证以确保准确性。据我们所知,SurgCoTBench 是手术领域第一个提供整个程序范围内的结构化帧级注释的数据集。
实现和评估指标。 所有实验均在零样本设置下使用 GPT-4o 的付费 API 进行,未进行任务特定的微调。由于所有问题均为多项选择题,评估基于准确率,以正确回答问题的百分比衡量。

3.1 与最先进方法的比较
在手术领域,基准和CoT提示方法相对缺乏。因此,我们将SurgRAW与两种设置进行了比较:直接向GPT-4o查询多项选择题以及使用LLaVA-CoT提示生成CoT以提示GPT-4o,后者是之前的最先进方法。如表 [tab1] 所示,多项选择题和添加LLaVA-CoT提示的表现较差,原因是缺乏结构化推理和领域特定知识。相比之下,SurgRAW在整体准确率上分别比LLaVA-CoT和多项选择题高出22.65%和29.32%。值得注意的是,SurgRAW在认知推理任务中表现出色,在患者信息任务中达到100%准确率,并在动作预测任务中比LLaVA-CoT高出36.32%。这些结果突显了我们SurgRAW框架的进步。
我们还在图 [fig:example] 中展示了定性结果,表明SurgRAW不仅提高了响应准确率,还提供了结构化的解释。我们进一步将SurgRAW与Surgical-VQA (Seenivasan 等, 2022) 进行了比较,后者是手术领域的最先进的VQA方法,使用3:1的比例划分训练和测试数据。Surgical-VQA在训练集上进行训练,两种设置都在测试集上进行评估。如图 [fig:radar] 所示,当回答多项选择题时,VLM的表现明显逊色于Surgical-VQA,而SurgRAW显著超越了Surgical-VQA。

3.2 消融研究
由于CoT使所有任务级代理得以启用,而RAG仅对认知推理任务有贡献,小组讨论仅发生在视觉语义任务中,我们对这两种任务类型分别进行消融研究,以评估SurgRAW中关键组件的个别贡献。如表 [tab:ablation1] 所示,第二行数据展示了CoT提示的重大影响,分别提高了认知推理任务和视觉语义任务的平均性能37.19%和6.80%。这些结果强调了逻辑推理在复杂任务(如手术场景理解)中的关键作用。在认知推理任务中,RAG提供了一些改进,但最佳性能是在RAG与CoT结合时实现的,这表明检索通过结构化问题解决得到了进一步增强。对于视觉语义任务,小组讨论显著提高了动作识别性能。此外,当代理配备了CoT时,代理间的协作得到了进一步优化,带来了额外的性能提升。
4 结论与未来工作
我们介绍了SurgRAW,这是第一个能够解决手术工作流中大多数问题的代理系统。我们的结果显示,CoT提示是提高认知推理和视觉语义任务准确性的关键驱动力。RAG和小组讨论为CoT提供了额外支持。SurgRAW优于以前的方法,为手术理解设定了新的基准。未来的工作将集中于扩展数据集以提高泛化能力,优化实时性能以辅助手术,并探索动态推理的CoT提示。这些进步将进一步提高SurgRAW在机器人辅助手术中的可靠性和影响力。
10
Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F.L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., et al.: Gpt-4 技术报告。arXiv 预印本 arXiv:2303.08774 (2023)
Chen, K., Du, Y., You, T., Islam, M., Guo, Z., Jin, Y., Chen, G., Heng, P.A.: Llm 辅助多教师持续学习用于机器人手术中的视觉问答。In: 2024 IEEE 国际机器人与自动化会议 (ICRA). pp. 10772–10778. IEEE (2024)
Gao, X., Jin, Y., Long, Y., Dou, Q., Heng, P.A.: Trans-svnet: 通过混合嵌入聚合变压器从手术视频中准确识别阶段。In: 医学图像计算和计算机辅助干预-MICCAI 2021: 第24届国际会议, 法国斯特拉斯堡,2021年9月27日-10月1日,会议记录,第四部分 24. pp. 593–603. Springer (2021)
Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, H., Wang, H.: 大型语言模型的检索增强生成:综述。arXiv 预印本 arXiv:2312.10997 2 (2023)
Hashimoto, D.A., Rosman, G., Rus, D., Meireles, O.R.: 人工智能在手术中的应用:前景与风险。《外科学年鉴》 268 (1), 70–76 (2018)
Holm, F., Ghazaei, G., Czempiel, T., Ö zsoy, E., Saur, S., Navab, N.: 手术视频的动态场景图表示。In: IEEE/CVF 国际计算机视觉会议论文集。pp. 81–87 (2023)
Intuitive Surgical, I.: Da vinci instruments (2024), https://www.intuitive.com/en-us/products-and-services/da-vinci/instruments , 访问日期: 2025年2月27日
Jin, Y., Dou, Q., Chen, H., Yu, L., Qin, J., Fu, C.W., Heng, P.A.: sv-rcnet: 使用循环卷积网络从手术视频中进行工作流识别。IEEE 医学影像汇刊 37 (5), 1114–1126 (2017)
Jin, Y., Li, H., Dou, Q., Chen, H., Qin, J., Fu, C.W., Heng, P.A.: 多任务循环卷积网络与相关损失用于手术视频分析。医学图像分析 59 , 101572 (2020)
Kim, Y., Park, C., Jeong, H., Chan, Y.S., Xu, X., McDuff, D., Lee, H., Ghassemi, M., Breazeal, C., Park, H., et al.: Mdagents: 医疗决策中的自适应LLM协作。神经信息处理系统进展 37 , 79410–79452 (2025) Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., 刘易斯, M., Yih, W.t., 洛克塔施塞尔, T., 等: 检索增强生成用于知识密集型自然语言处理任务。神经信息处理系统进展 33 , 9459–9474 (2020)
李, B., 燕, T., 潘, Y., 罗, J., 季, R., 丁, J., 许, Z., 刘, S., 董, H., 林, Z., 等: Mmedagent: 使用多模态代理学习医疗工具。arXiv 预印本 arXiv:2407.02483 (2024)
李, C., Wong, C., 张, S., 宇须山, N., 刘, H., 杨, J., 诺伊曼, T., 波恩, H., 高, J.: Llava-med: 在一天内训练大型语言和视觉助手用于生物医学。神经信息处理系统进展 36 , 28541–28564 (2023)
李, J., Skinner, G., 杨, G., Quaranto, B.R., Schwaitzberg, S.D., Kim, P.C., Xiong, J.: Llava-surg: 通过结构化手术视频学习迈向多模态手术助手。arXiv 预印本 arXiv:2408.07981 (2024)
林, B., 叶, Y., 朱, B., 崔, J., 宁, M., 金, P., 袁, L.: Video-llava: 通过对齐前投影学习联合视觉表示。arXiv 预印本 arXiv:2311.10122 (2023)
刘, Z., 陈, K., 王, S., 肖, Y., 张, G.: 手术过程建模中的深度学习:工作流识别的系统回顾。生物医学信息学杂志 p. 104779 (2025)
曼宁, D.: 医学图像阅读的认知因素:图像解释中的思维过程。医学图像感知与技术手册 pp. 107–120 (2009)
美国国家医学图书馆的朋友, N.L.: MedlinePlus, vol. 5. 国家卫生研究院及美国国家医学图书馆的朋友... (2006)
米勒, N., 拉克鲁瓦, E.M., 巴克斯, J.E.: Medlineplus: 构建和维护国家医学图书馆的消费者健康网络服务。医学图书馆协会公报 88 (1), 11 (2000)
诺里, H., 金, N., 麦金尼, S.M., 卡里甘, D., 霍维茨, E.: GPT-4在医学挑战问题上的能力。arXiv 预印本 arXiv:2303.13375 (2023)
帕多伊, N.: 手术中工作流识别的机器学习和深度学习。微创治疗与相关技术 28 (2), 82–90 (2019)
Psychogyios, D., 科莱奥尼, E., 范阿姆斯特丹, B., 李, C.Y., 黄, S.Y., 李, Y., 贾, F., 邹, B., 王, G., 刘, Y., 等: SAR-RARP50: 机器人辅助根治性前列腺切除术挑战中的手术器械分割和动作识别。arXiv 预印本 arXiv:2401.00496 (2023)
拉德福德, A., 金, J.W., 徐, T., 布罗克曼, G., 麦克利维, C., 苏斯科弗, I.: 通过大规模弱监督实现稳健语音识别。在: 国际机器学习会议。pp. 28492–28518. PMLR (2023)
施密德加尔, S., 金, J.W., 乔普林, J., 克里格, A.: 普通外科视觉变压器:普通外科的视频预训练基础模型。arXiv 预印本 arXiv:2403.05949 (2024)
西尼瓦桑, L., 伊斯兰, M., 克里希纳, A.K., 任, H.: Surgical-VQA: 使用Transformer在手术场景中进行视觉问答。在: 国际医学图像计算与计算机辅助干预会议。pp. 33–43. Springer (2022)
邵, Z., 徐, J., 斯托扬诺夫, D., 马佐梅诺斯, E.B., 金, Y.: 一步一步思考:机器人手术视频中的手势链提示错误检测。IEEE 机器人与自动化快报 (2024)
西瓦拉吉库马尔, S., 凯利, M., 山米莱克-马赞蒂, A., 维斯韦斯瓦兰, S., 王, Y.: 大型语言模型在零样本临床自然语言处理中的提示策略的经验评估:算法开发和验证研究。JMIR 医疗信息学 12 , e55318 (2024)
索阿雷斯, A.S., 昌, M.: 为什么我们应该分享我们的操作:对手术学习的游戏理论分析。medRxiv pp. 2025–02 (2025)
Twinanda, A.P., Shehata, S., Mutter, D., Marescaux, J., De Mathelin, M., Padoy, N.: EndoNet: 一种用于腹腔镜视频识别任务的深度架构。IEEE 医学影像汇刊 36 (1), 86–97 (2016)
徐, G., 金, P., 郝, L., 宋, Y., 孙, L., 袁, L.: Llava-o1: 让视觉语言模型逐步推理。arXiv 预印本 arXiv:2411.10440 (2024)
袁, K., Navab, N., Padoy, N., et al.: 结合分层知识增强的程序感知手术视频-语言预训练。神经信息处理系统进展 37 , 122952–122983 (2025)
袁, K., Srivastav, V., Yu, T., Lavanchy, J.L., Mascagni, P., Navab, N., Padoy, N.: 通过观看数百个手术视频讲座学习多模态表示。arXiv 预印本 arXiv:2307.15220 (2023)
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)