推理驱动的生成式通用多模态嵌入框架-UME-R1

余俊晖

186人浏览 · 2026-06-02 20:12:55

余俊晖 · 2026-06-02 20:12:55 发布

VLM2Vec, MM-Embed等模型均为判别式：直接提取输入最后一个 token 的隐层状态作为嵌入，不生成新 token，无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入，让模型先推理、再总结、最后生成嵌入，同时保留判别式嵌入能力。

方法

数据构建

构建冷启动 SFT 监督数据与RL 强化学习数据两套数据集，覆盖图像、视频、视觉文档三模态。

用GLM-4.1V-Thinking推理模型，为每条样本的 query 和 target 生成思维连和摘要。prompt如下：

剔除三类无效样本，最终得到146 万条高质量 SFT 数据：

大量连续 token 重复
推理文本超长（＞8192token）
不遵循【< think>…< /think>< answer>…< /answer >】格式

UME-R1模型架构

模型设计目标：一个模型同时输出判别式嵌入 + 生成式嵌入。
提示词模版设计

其中 < image> 和 < video> 分别表示输入图像和视频的占位符。如图 a 所示：

判别式嵌入：提示中 <disc_emb> token 对应的最后一层隐状态。
生成式嵌入：模型生成的 <gen_emb> token 对应的最后一层隐状态

双嵌入生成逻辑：

判别式嵌入：直接提取输入占位符的隐状态，无生成步骤，速度快。
生成式嵌入：先自主生成推理过程+摘要，再结合原始输入生成最终表示，精度更高。

模型训练

采用两阶段训练，先通过SFT赋予模型双嵌入+推理能力，再用RLVR优化生成式嵌入质量。

Stage 1：冷启动监督微调

目标：让模型同时学会3件事

生成判别式嵌入；
生成带推理+摘要的生成式嵌入；
掌握基础的分步推理能力。

总损失：

判别式对比损失：传统损失，优化判别式嵌入的检索性能。

生成式对比损失：对推理+摘要后的生成式嵌入做对比学习，利用CoT语义提升精度：
- $ o_i^q $：查询 $ q_i $ 的推理+摘要；
- $ o_i^t $：目标 $ t_i $ 的推理+摘要。
自回归语言损失:对推理、摘要token做下一个token预测**，强制模型学会生成规范CoT：
- $ L_q/L_t $：查询/目标的推理长度。

Stage 2：可验证奖励强化学习（RLVR）

使用GRPO进一步优化推理轨迹对embedding的性能【仅用小数据集即可优化，不破坏判别式嵌入性能】。

奖励函数设计：

（1）格式奖励（Format Reward）

强制模型严格遵循模板：< think>推理< /think> < answer>摘要< /answer> < gen_emb>。符合得1分，偏差得0分，保障输出的结构化与可解释性。

（2）嵌入奖励（Embedding Reward）

融合排序+相似度差，适配多模态嵌入：

排序得分：正样本在Top-G中的占比，对齐下游检索任务；
相似度差：正/负样本平均相似度之差，细粒度优化区分度；
优势：替代固定阈值奖励，适配不同模态的相似度分布。

实验

参考文献

UME-R1: EXPLORING REASONING-DRIVEN GENER ATIVE MULTIMODAL EMBEDDINGS，https://arxiv.org/pdf/2511.00405

code：https://github.com/XMUDeepLIT/UME-R1

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

cover

YLB3118@ACP# 8 口 PCIe3.0 转 SATA 高密度存储桥接芯片（对标 ASM1166）

智能体开发者社区

【无标题】

随着企业级AI应用进入快速发展阶段，越来越多组织开始建设属于自己的知识库系统、AI Agent平台以及数字员工体系。关键词：Dify企业版、Dify企业版服务商、Dify服务商、Dify最佳服务商、JOTO、聚托科技。作为专业的Dify企业版服务商，JOTO围绕企业AI建设形成了一整套实施方法论。因此对于希望长期建设企业AI能力的组织来说，专业服务团队的重要性正在不断提升。而在众多AI应用开发平台

智能体开发者社区

cover

别浪费了：小米 MiMo 剩余额度全部开放测试

智能体开发者社区

所有评论(0)

查看更多评论

余俊晖

已为社区贡献41条内容