GEMeX-系列文章 GEMeX, GEMeX-ThinkVG

数据集构建步骤：首先通过Chest ImaGenome构建数据对。然后利用GPT-4o产生多样的回答；之后用OpenBioLLM-70B 对报告重构（aaditya/Llama3-OpenBioLLM-70B 是公认在医疗LLM上表现良好）数据集评估质量：抽取300个样本用GPT-4o去验证数据集评价指标：回答的准确率，推理能力，定位能力，利用BLEU和ROUGE来评价文本部分。

wanghehee

801人浏览 · 2025-07-10 21:53:07

wanghehee · 2025-07-10 21:53:07 发布

**
数据集只开源测试数据集，但没开源训练数据
持续关注中，因为我对这个数据很感兴趣
不过 大概率不了了之，一直coming soon

until 2025.07.09
**

GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
paper: https://arxiv.org/pdf/2506.17939v1

GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA paper: Benchmark for Chest X-ray Diagnosis
paper:https://arxiv.org/pdf/2411.16778

2024 ICCV —> 2025.06 arixv 香港理工

主页：https://www.med-vqa.com/GEMeX

文章目录

一. GEMeX: 大规模的，有定位的，可解释的医学问答的文章 benchmark
二. GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning

一. GEMeX: 大规模的，有定位的，可解释的医学问答的文章 benchmark

1.1. 研究背景

当前Med-VQA面临两个问题，这限制了开发可靠的和用户友好的Med-VQA：
(1) 目前的回答缺乏可解释性，限制了病人和初级医生的理解能力；
(2) 问题只通过固定的格式，不能适应实际多样的场景

GEMeX主要包括两个方面：
(1) 一种多模态的可解释性机制，为每个问题-答案提供详细的视觉和文本解释，从而提高答案的可解释性
(2) 四种类型的回答：open-ended, closed-ended, single-choice, multiple-choice

151,025 image 和 1,605,575 问答对，主要是数据集

1.2. 数据集介绍

数据集构建步骤：首先通过Chest ImaGenome构建数据对。然后利用GPT-4o产生多样的回答；之后用OpenBioLLM-70B 对报告重构（aaditya/Llama3-OpenBioLLM-70B 是公认在医疗LLM上表现良好）
数据集评估质量：抽取300个样本用GPT-4o去验证
数据集评价指标：回答的准确率，推理能力，定位能力，利用BLEU和ROUGE来评价文本部分。
评估了12个有代表性LVLMs，其中包括7个通用架构（LLaVA, DeepSeek-VL, GPT-4o-mini），5个医疗架构（LLaVA-Med, XrayGPT, RadFM）

图1.GEMeX构建步骤。第一阶段，根据疾病区域和放射医生临床指导，LLM重新产生跟每个句子相关的更精确的定位。第二步，精心设计提示使得GPT-4o能利用第一阶段重新整理的报告生成更大规模的医疗问答数据集

目前的开源数据集

训练数据集和LLaVA-Med微调的format
模型训练方法：问题类型感知的指令微调LLaVA-Med-v1-7B

1.3. 实验结果

1.3.1.评估不同回答类型中的表现

1.3.2. 评估LVLMs的进一步NLP表现

1.3.3.zero-shot performance表现，探究泛化性

图6.GEMeX在GPT-4o-mini和LLaVA-Med-GEMeX相比的结果展示

二. GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning

疑问：其实第一篇GEMeX 已经有reasoning的过程了，只是没有把它用语言描述出来，这篇跟上一篇有什么区别和联系？

2.1. 研究背景

目前，大多数方法生成答案时，都不会揭示其背后的推理过程或具体图像区域，而正是这些区域为模型决策提供了依据。这种缺乏透明度的情况削弱用户的信任，并阻碍这类系统进入临床工作流程
GEMeX-ThinkVG证明，仅仅依靠SFT不足以充分释放 large vision language models(LVLMs)能力。采用RL框架做post-training，引入可验证的奖励机制，以激励推理轨迹和相关视觉文本线索一致性。

跟上一篇的区别！！
其实跟上一篇几乎相同，但补充了丰富实验，加了RL

左边是GEMeX, 双肺（过度充气）、右侧肋膈角（变钝）、双侧下肺（肺不张）和心脏轮廓（增大）出现异常。
右边是我们的ThinkVG：为了回答这个问题，我将首先检查胸部X光片（CXR）上的双肺区域([64, 42, 257, 262])，以查看是否有任何异常。局灶性实变（A）会表现为密集的斑片状不透明影，但此处的肺部没有这样的发现。胸腔积液（C）会表现为肋膈角变钝或半月征，但这些迹象并不存在。气胸（D）会显示出脏层胸膜线和周围透亮度增加，但没有看到这样的线条。由于肺部均匀充气，没有不透明影或胸膜不规则，正确答案是B：清晰。纵隔（[122, 73, 218, 229]）和心脏区域（[122, 151, 218, 229]）进一步证实了正常发现，支持这一结论。

GEMeX数据集是VQA triplets成对数据，文本推理和视觉区域相关。
** 但是文本和视觉提示是独立的，缺乏连贯性！！（唉，看看人家，这motivation写的。换我，我就只会说把GEMeX的结果用大模型从一些词组换成段落）。
** 进一步，文本推理只是对答案的解释，而不是基于图像提供解决问题的指导（有啥区别？，不都是因为膨大了，或弥散了，所以有什么症状）这就是GEMeX-ThinkVG。

总结来说，这篇文章的贡献主要三部分：

提出数据集，这个数据集提供逐步推理的区域语义标注的信息
在数据集上进行SFT，进一步利用RL采用一种新颖的可验证奖励机制来激励推理能力，从而能生成更准确的思考路径和最终答案
通过全面实验，证明了所提供了数据集和奖励机制的有效性，这些机制只用1/8回能达到利用全部数据集相同的性能水平

2.2. 研究方法

2.2.1 数据集构建过程

数据集构建过程：
1.DeepSeek-R1根据VQA写出推理过程（table1是prompt）。但DS-R1是text模型，所以利用GEMeX生成病变区域。
2.stage2-DS-R1确认生成答案，stage3-利用三个额外的agent作为reviewer，stage4-后处理，去除明显错误，包括区域错误或引用错误

图2.通过uncertainty-driven multi-agent framework 不确定性引导的多智能体工作流生成GEMeX-ThinkVG数据

2.2.2 训练过程

训练过程
SFT和RFT过程（Fig3）. SFT 需要 $< t hink > ... < t hink >< res p o n se >< an s w er > ... < an s w er >< l oc a t i o n > ... < l oc a t i o n >< res p o n se >$

Fig3左边是 SFT和RFT阶段，右边是GRPO步骤

虽然SFT已经能显著提高性能，但它：
1.因为任务的复杂性，模型有时产生错误的思维过程在SFT之后，比如错误分析图像，这可能因为SFT更有助于LVLMs记忆，而不是真正理解（RL就真正理解了？？？什么鬼）
2.推导过程不正确的定位框，可能会导致性能下载

RL的奖励函数
1.semantic reward：语义奖励. 对于choice-based和closed-ended问题来说，奖励设计是准确率奖励，而对于open-ended问题是缺乏固定答案的。不同于传统的BLEU作为奖励，本文将GT回答和模型产生的回答都输入OpenBioLLM-70B，能提供两个正确率分数。如果这两个分数接近，奖励是1，否则是0
2.grounding reward: 定位奖励. mIoU

左边是产生Think VG数据，右边是semantics reward
对右边的翻译
“{
“role”: “user”,
“content”: “我们希望您对两个AI助手在回答上述用户问题时的表现提供反馈。供您参考，图像中的视觉内容通过描述同一图像的标题来表示。请根据答案和理由（如果有）评估它们回答的准确性（最重要）和相关性。每个助手将获得一个1到10的总分，分数越高表示整体表现越好。请以JSON格式输出两个分数和您的理由 { assistant1: score, assistant2: score, reason:your_reason }。”
}”

2.2.3 训练数据集和模型结果

GEMeX-Full包含1.59M VQA问题对
GEMeX-ThinkVG-200K
GEMeX-test数据包含 300图和3960问题(1,144 open-ended questions, 543 closed-ended questions, 1,300 single-choice questions, and 973 multiple-choice questions).

详细的训练过程： Qwen2.5-VL-7B-Instruct对基础
在SFT/RFT阶段，微调 visual projection layers and the LLM components预测ThinkVG路径

SFT	-	RFT	-
2 epoch	8 NVIDIA H100 GPUs	1 epoch	NVIDIA H100 GPUs
batch size 256	AdamW	batch size 128	AdamW
warmup 0.05 epochs with a linear learning rate from 3e-7 to 1e-4 by cosine schedule		learning rate 2e-6
		generate 8 outputs	set β and ϵ to 1e − 3 and 0.2

2.3. 实验结果

2.3.1 主要实验结果

SFT数据越多，效果越好，RL有效

表4. Qwen2.5-VL-7B在GEMeX上使用不同评估范式的性能。A-score表示答案或选择的准确性（%），V-score表示mIoU（%）。† 表示答案的准确性由LLM判断，因为问题是开放性的。每列中最好的结果用粗体表示，第二好的结果用下划线表示。

2.3.2 抗干扰能力评估

“Is the heart size abnormal in this CXR?” 会随机 “is"被"isn’ t"替代, 或由"abnormal"代替"normal”，每个问题50%几率被修改成这两种模式的一个
所有的三轮测试都在SFT之后，表明ThinkVG对模型微调后，其抗干扰能力显著提高

表5. 模型在不同扰动下的性能。† 表示与原始A-score相比，三种扰动的标准差。

由使用和未使用ThinkVG训练的模型回答的来自GEMeX的具有挑战性的示例。(✓)或(✗)在输出中突出显示正确或错误的原因或答案。彩色单词表示带有视觉定位过程的思考。

Reviewer问题

我的问题：

RL 一点的提升，到底RL从原理上来说是真的有效吗？我都不知道RL是一种训练策略，还是一种新优化目标？SFT是记忆，那RL就能理解了？
CoT真的有效吗？CoT是把大问题分解成小问题，但这么长的思维链能提升的任务类型也很有限。

看paper的提纲

提问（解决了什么问题？）
理解（怎么解决的？）
验证（结果怎么样？）
反思
1.为什么能解决？为什么有效？为什么某个方法在这个任务上表现这么好？
2.它和传统方法相比，核心改进在哪？局限性是什么？
3.这个方法是否可以迁移到我的问题上？```bash

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla