英伟达:LLM弹性训练架构
如何高效地训练一个能够在多种资源约束下进行推理的语言模型?论文提出了一种名为Nemotron Elastic的框架,能够从单次训练中生成多种参数预算的嵌套子网络,同时优化长上下文推理能力。

📖标题:Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
🌐来源:arXiv, 2511.16664
🌟摘要
训练一系列针对多个尺度和部署目标的大型语言模型非常昂贵,需要为每个不同大小的单独训练运行。最近通过修剪和知识蒸馏进行模型压缩的工作降低了这种成本;然而,这个过程仍然会产生数百数十亿个令牌,值得每个压缩模型的训练成本。在本文中,我们介绍了 Nemotron Elastic,这是一个构建面向推理的 LLM 的框架,包括混合 Mamba-Attention 架构,该架构在单个父模型中嵌入多个嵌套子模型,每个模型都针对不同的部署配置和预算进行了优化。这些子模型中的每一个都与父模型共享权重,并且可以在部署期间提取零样本,而无需额外的训练或微调。我们通过端到端训练的路由器启用此功能,与专门为推理模型设计的两阶段训练课程紧密耦合。我们还介绍了保留 Mamba 结构约束的组感知 SSM 弹性,异构 MLP 弹性,归一化基于 MSE 的层重要性以改进深度选择,以及实现同时多预算优化的知识蒸馏。我们将 Nemotron Elastic 应用于 Nemotron Nano V2 12B 模型,同时仅使用 110B 训练令牌生成 9B 和 6B 模型;与从头开始训练模型家族相比,这会导致 360 倍的成本降低,与 SoTA 压缩技术相比,成本约为 7 倍。每个嵌套模型在准确性上的表现与 SoTA 相当或更好。此外,与其他压缩方法不同,我们方法的嵌套能力允许具有多对一推理模型,该模型对家族中的模型数量具有恒定的部署内存。
🛎️文章简介
🔸研究问题:如何高效地训练一个能够在多种资源约束下进行推理的语言模型?
🔸主要贡献:论文提出了一种名为Nemotron Elastic的框架,能够从单次训练中生成多种参数预算的嵌套子网络,同时优化长上下文推理能力。
📝重点思路
🔸建立了重要性估计机制,以确定组件的优先级排序。
🔸引入了弹性模型的构建,使其能够在宽度和深度上灵活调整。
🔸采用双阶段训练,结合路由器的学习与任务特定的约束。
🔸实施动态掩码,以实现高效的多预算训练。
🔎分析总结
🔸通过实验,Nemotron Elastic在同一次训练运行中成功生成了多个参量预算的子模型(6B、9B和12B),并在推理任务上表现出竞争力或优越的准确性。
🔸该框架显著减少了训练所需的令牌数量(最多可达40倍),并提升了推理速度。
🔸实验表明,弹性培训策略有效解决了推理模型对架构灵活性的需求,并能够在长上下文下进行高效训练。
💡个人观点
论文提出了一个全新的弹性架构,能够在保证准确性的同时,支持多种部署场景和参数预算,从而大幅度降低训练成本。
🧩附录

更多推荐
所有评论(0)