英伟达：LLM弹性训练架构

如何高效地训练一个能够在多种资源约束下进行推理的语言模型？论文提出了一种名为Nemotron Elastic的框架，能够从单次训练中生成多种参数预算的嵌套子网络，同时优化长上下文推理能力。

大模型任我行

1204人浏览 · 2025-11-26 08:00:00

大模型任我行 · 2025-11-26 08:00:00 发布

在这里插入图片描述

📖标题：Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
🌐来源：arXiv, 2511.16664

🌟摘要

训练一系列针对多个尺度和部署目标的大型语言模型非常昂贵，需要为每个不同大小的单独训练运行。最近通过修剪和知识蒸馏进行模型压缩的工作降低了这种成本；然而，这个过程仍然会产生数百数十亿个令牌，值得每个压缩模型的训练成本。在本文中，我们介绍了 Nemotron Elastic，这是一个构建面向推理的 LLM 的框架，包括混合 Mamba-Attention 架构，该架构在单个父模型中嵌入多个嵌套子模型，每个模型都针对不同的部署配置和预算进行了优化。这些子模型中的每一个都与父模型共享权重，并且可以在部署期间提取零样本，而无需额外的训练或微调。我们通过端到端训练的路由器启用此功能，与专门为推理模型设计的两阶段训练课程紧密耦合。我们还介绍了保留 Mamba 结构约束的组感知 SSM 弹性，异构 MLP 弹性，归一化基于 MSE 的层重要性以改进深度选择，以及实现同时多预算优化的知识蒸馏。我们将 Nemotron Elastic 应用于 Nemotron Nano V2 12B 模型，同时仅使用 110B 训练令牌生成 9B 和 6B 模型；与从头开始训练模型家族相比，这会导致 360 倍的成本降低，与 SoTA 压缩技术相比，成本约为 7 倍。每个嵌套模型在准确性上的表现与 SoTA 相当或更好。此外，与其他压缩方法不同，我们方法的嵌套能力允许具有多对一推理模型，该模型对家族中的模型数量具有恒定的部署内存。

🛎️文章简介

🔸研究问题：如何高效地训练一个能够在多种资源约束下进行推理的语言模型？
🔸主要贡献：论文提出了一种名为Nemotron Elastic的框架，能够从单次训练中生成多种参数预算的嵌套子网络，同时优化长上下文推理能力。

📝重点思路

🔸建立了重要性估计机制，以确定组件的优先级排序。
🔸引入了弹性模型的构建，使其能够在宽度和深度上灵活调整。
🔸采用双阶段训练，结合路由器的学习与任务特定的约束。
🔸实施动态掩码，以实现高效的多预算训练。

🔎分析总结

🔸通过实验，Nemotron Elastic在同一次训练运行中成功生成了多个参量预算的子模型（6B、9B和12B），并在推理任务上表现出竞争力或优越的准确性。
🔸该框架显著减少了训练所需的令牌数量（最多可达40倍），并提升了推理速度。
🔸实验表明，弹性培训策略有效解决了推理模型对架构灵活性的需求，并能够在长上下文下进行高效训练。

💡个人观点

论文提出了一个全新的弹性架构，能够在保证准确性的同时，支持多种部署场景和参数预算，从而大幅度降低训练成本。

🧩附录

在这里插入图片描述

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla