Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models”(arXiv:2506.05176v3)


引言

文本嵌入(text embedding)和重排序(reranking)是自然语言处理(NLP)和信息检索(IR)领域的核心技术,广泛应用于网页搜索、问答系统和推荐系统等场景。高质量的嵌入能够捕捉文本间的语义关系,而有效的重排序机制则确保最相关结果被优先展示。近年来,随着大型语言模型(LLM)如 Qwen3 和 GPT-4o 的发展,检索增强生成(RAG)和代理系统等新应用范式对文本嵌入和重排序提出了更高要求,包括可扩展性、上下文理解和下游任务对齐。


概述

Qwen3 Embedding 系列是一套基于 Qwen3 基础模型构建的文本嵌入和重排序模型,旨在提升文本嵌入和重排序任务的性能。旨在通过多阶段训练流程和模型融合策略提升文本嵌入和重排序性能。Qwen3 Embedding 系列提供三种参数规模(0.6B、4B、8B)的模型,在多语言和多任务基准测试中达到 state-of-the-art 水平,并开源以促进社区研究。


主要贡献

1. 多阶段训练管道

  • 训练策略:采用大规模无监督预训练与监督微调相结合的方式,利用 Qwen3 模型生成约 1.5 亿对多任务弱监督训练数据,覆盖检索、双文本挖掘、分类及语义文本相似性等任务。
  • 模型合并:通过球面线性插值(Spherical Linear Interpolation, slerp)技术合并多个模型检查点,提升模型在不同数据分布上的鲁棒性与泛化能力。

2. 模型架构

  • 嵌入模型
    • 基于 Qwen3 稠密版本构建,参数量分别为 0.6B、4B 和 8B。
    • 使用因果注意力机制,在输入序列末尾添加 [EOS] 标记,取其最后一层隐藏状态作为嵌入。
    • 输入格式为 {Instruction} {Query} <|endoftext|>,支持指令感知与自定义嵌入维度。
  • 重排序模型
    • 采用点对点重排序方法,通过二分类任务评估查询与文档的相关性。
    • 输入模板:
      <|im_start|>system
      Judge whether the Document meets the requirements based on the Query and the Instruction provided. Note that the answer can only be "yes" or "no".<|im_end|>
      <|im_start|>user
      <Instruction>: {Instruction}
      <Query>: {Query}
      <Document>: {Document}
      <|im_end|>
      
    • 相关性评分通过计算 “yes” 和 “no” 的概率比获得:
      score⁡(q,d)=ep(yes∣I,q,d)ep(yes∣I,q,d)+ep(no∣I,q,d) \operatorname{score}(q, d) = \frac{e^{p(\text{yes} \mid I, q, d)}}{e^{p(\text{yes} \mid I, q, d)} + e^{p(\text{no} \mid I, q, d)}} score(q,d)=ep(yesI,q,d)+ep(noI,q,d)ep(yesI,q,d)

3. 合成数据集

  • 数据生成:利用 Qwen3-32B 模型生成约 1.5 亿对多任务弱监督数据,通过提示策略控制任务类型、语言及难度等维度。
  • 数据筛选:从合成数据中筛选余弦相似度大于 0.7 的高质量数据对(约 1200 万对),用于监督微调。
  • 检索数据合成:采用文档到查询的生成方法,利用 Persona Hub 注入用户视角,通过两阶段生成(配置与查询生成)提升数据多样性与质量。

4. 实验评估

  • 嵌入模型
    • 在 MMTEB 上,Qwen3-Embedding-8B 得分 70.58,优于 Gemini-Embedding。
    • 在 MTEB(代码)上,Qwen3-Embedding-8B 得分 80.68,同样超越 Gemini-Embedding。
  • 重排序模型
    • Qwen3-Reranker-0.6B 在多个检索任务中优于基线模型。
    • Qwen3-Reranker-8B 性能更佳,在多任务中比 0.6B 模型提升 3.0 分。

技术细节

1. 训练目标

  • 嵌入模型
    • 采用改进的 InfoNCE 对比损失:
      Lembedding=−1N∑iNlog⁡e(s(qi,di+)/τ)Zi L_{\text{embedding}} = -\frac{1}{N} \sum_i^N \log \frac{e^{\left(s\left(q_i, d_i^{+}\right) / \tau\right)}}{Z_i} Lembedding=N1iNlogZie(s(qi,di+)/τ)
      其中,s(⋅,⋅)s(\cdot, \cdot)s(,) 为余弦相似度,τ\tauτ 为温度参数,ZiZ_iZi 为正样本与多种负样本的归一化因子:
      Zi=e(s(qi,di+)/τ)+∑kKmike(s(qi,dik−)/τ)+∑j≠imije(s(qi,dj+)/τ) Z_i = e^{\left(s\left(q_i, d_i^{+}\right) / \tau\right)} + \sum_k^K m_{i k} e^{\left(s\left(q_i, d_{i k}^{-}\right) / \tau\right)} + \sum_{j \neq i} m_{i j} e^{\left(s\left(q_i, d_j^{+}\right) / \tau\right)} Zi=e(s(qi,di+)/τ)+kKmike(s(qi,dik)/τ)+j=imije(s(qi,dj+)/τ)
      掩码因子 mijm_{i j}mij 用于减少假负样本影响:
      mij={0if sij>s(qi,di+)+0.1 or dj=di+1otherwise m_{i j} = \begin{cases} 0 & \text{if } s_{i j} > s(q_i, d_i^{+}) + 0.1 \text{ or } d_j = d_i^{+} \\ 1 & \text{otherwise} \end{cases} mij={01if sij>s(qi,di+)+0.1 or dj=di+otherwise
  • 重排序模型
    • 优化监督微调(SFT)损失:
      Lreranking=−log⁡p(l∣P(q,d)) L_{\text{reranking}} = -\log p(l \mid \mathcal{P}(q, d)) Lreranking=logp(lP(q,d))
      其中,lll 为 “yes”(正样本)或 “no”(负样本),鼓励模型为正样本分配更高概率。

2. 多阶段训练

  • 弱监督预训练
    • 使用 Qwen3 模型合成的多语言、多任务数据进行大规模预训练。
  • 监督微调
    • 结合标注数据(如 MS MARCO、NQ、HotpotQA)和筛选后的合成数据。
  • 模型合并
    • 通过 slerp 合并多个检查点,提升模型鲁棒性。

3. 数据集统计

阶段 数据集 数据量
弱监督预训练 合成数据 ~1.5 亿对
监督微调 标注数据 + 高质量合成数据 标注:~700 万对
合成:~1200 万对

实验结果与分析

  • 嵌入模型性能
    • 在 MMTEB、MTEB(英文)、CMTEB 和 MTEB(代码)等基准中,Qwen3-Embedding 系列表现优异,尤其是 8B 模型。
  • 重排序模型性能
    • 在检索任务子集(如 MTEB-R、CMTEB-R)上,Qwen3-Reranker 系列提升显著。
  • 弱监督预训练有效性
    • 仅使用合成数据训练的模型已表现出色,去除此阶段会导致性能下降。
  • 模型合并有效性
    • 未使用模型合并的模型性能低于最终版本,证明合并策略的重要性。
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐