VLM2Vec, MM-Embed等模型均为判别式:直接提取输入最后一个 token 的隐层状态作为嵌入,不生成新 token,无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入,让模型先推理、再总结、最后生成嵌入,同时保留判别式嵌入能力。

方法

数据构建

构建冷启动 SFT 监督数据与RL 强化学习数据两套数据集,覆盖图像、视频、视觉文档三模态。

用GLM-4.1V-Thinking推理模型,为每条样本的 query 和 target 生成思维连和摘要。prompt如下:

剔除三类无效样本,最终得到146 万条高质量 SFT 数据:

  • 大量连续 token 重复
  • 推理文本超长(>8192token)
  • 不遵循【< think>…< /think>< answer>…< /answer >】格式

UME-R1模型架构

模型设计目标:一个模型同时输出判别式嵌入 + 生成式嵌入。
提示词模版设计

其中 < image> 和 < video> 分别表示输入图像和视频的占位符。如图 a 所示:

  • 判别式嵌入:提示中 <disc_emb> token 对应的最后一层隐状态。
  • 生成式嵌入:模型生成的 <gen_emb> token 对应的最后一层隐状态

双嵌入生成逻辑:

  • 判别式嵌入:直接提取输入占位符的隐状态,无生成步骤,速度快。
  • 生成式嵌入:先自主生成推理过程+摘要,再结合原始输入生成最终表示,精度更高
模型训练

采用两阶段训练,先通过SFT赋予模型双嵌入+推理能力,再用RLVR优化生成式嵌入质量。

Stage 1:冷启动监督微调

目标:让模型同时学会3件事

  1. 生成判别式嵌入;
  2. 生成带推理+摘要的生成式嵌入;
  3. 掌握基础的分步推理能力。

总损失:

  1. 判别式对比损失:传统损失,优化判别式嵌入的检索性能。

  1. 生成式对比损失:对推理+摘要后的生成式嵌入做对比学习,利用CoT语义提升精度:

    • $ o_i^q $:查询 $ q_i $ 的推理+摘要;
    • $ o_i^t $:目标 $ t_i $ 的推理+摘要。
  2. 自回归语言损失:对推理、摘要token做下一个token预测**,强制模型学会生成规范CoT:

    • $ L_q/L_t $:查询/目标的推理长度。
Stage 2:可验证奖励强化学习(RLVR)

使用GRPO进一步优化推理轨迹对embedding的性能【仅用小数据集即可优化,不破坏判别式嵌入性能】。

奖励函数设计:

(1)格式奖励(Format Reward)

强制模型严格遵循模板:< think>推理< /think> < answer>摘要< /answer> < gen_emb>。符合得1分,偏差得0分,保障输出的结构化与可解释性。

(2)嵌入奖励(Embedding Reward)

融合排序+相似度差,适配多模态嵌入:

  • 排序得分:正样本在Top-G中的占比,对齐下游检索任务;
  • 相似度差:正/负样本平均相似度之差,细粒度优化区分度;
  • 优势:替代固定阈值奖励,适配不同模态的相似度分布。

实验

参考文献

UME-R1: EXPLORING REASONING-DRIVEN GENER ATIVE MULTIMODAL EMBEDDINGS,https://arxiv.org/pdf/2511.00405

code:https://github.com/XMUDeepLIT/UME-R1

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐