英伟达开源英语语音识别模型速览：canary-qwen-2.5b

NVIDIA推出Canary-Qwen-2.5B语音识别模型，这款25亿参数的英语ASR模型在多个基准测试中表现优异。该模型支持两种模式：纯语音转文本的ASR模式和可处理转录文本的LLM模式。基于FastConformer编码器和Transformer解码器架构，模型采用CC-BY-4.0许可，已在HuggingFace平台发布。训练使用了4000万语音-文本对，在32块A100 GPU上完成。虽

Panesle

1562人浏览 · 2025-07-25 22:15:00

Panesle · 2025-07-25 22:15:00 发布

NVIDIA Canary-Qwen-2.5B

一、模型描述

NVIDIA NeMo Canary-Qwen-2.5B 是一款英语音频识别模型，在多个英语音频基准测试中达到了世界领先水平。该模型拥有 25 亿参数，运行速度为 418 RTFx，支持带标点和大写的英语自动语音转文本识别（ASR）。模型具有两种工作模式：作为转录工具的 ASR 模式和作为大型语言模型（LLM）的 LLM 模式。在 ASR 模式下，模型仅能将语音转录为文本，不具备 LLM 特有的推理等能力；在 LLM 模式下，模型保留了原始 LLM 的全部能力，可用于对转录文本进行后处理，例如总结或回答关于转录文本的问题，但此时模型不再“理解”原始音频，仅能处理其转录文本。该模型已准备好用于商业用途。

二、许可协议

Canary-Qwen-2.5B 采用 CC-BY-4.0 许可证发布，用户使用该模型即表示同意许可证的条款和条件。

三、参考文献

论文列出了一系列参考文献，包括关于准确语音识别与翻译无需网络规模数据的研究、快速 Conformer 编码器相关研究、注意力机制相关研究、Qwen/Qwen3-1.7B 模型卡片、编码器 - 解码器语音模型的训练和推理效率研究、NVIDIA NeMo 工具包、包含 25 种欧洲语言的语音识别和翻译数据集 Granary、关于衡量 AI 公平性的论文以及语音增强型语言模型相关研究等。

四、部署范围

该模型的部署范围为全球。

五、用途

该模型适用于需要英语音频转文本转录能力的用户，以及需要通过提示底层 LLM 来实现转录文本后处理能力的用户。典型用途包括转录、总结以及回答用户关于转录文本的问题。

六、发布日期

该模型于 2025 年 7 月 17 日通过 Huggingface 发布，可通过链接 https://huggingface.co/nvidia/canary-qwen-2.5b 获取。

七、模型架构

Canary-Qwen 是一种语音增强型语言模型（SALM），采用 FastConformer 编码器和 Transformer 解码器构建。它基于 nvidia/canary-1b-flash 和 Qwen/Qwen3-1.7B 两个基础模型，通过线性投影和应用于 LLM 的低秩适应（LoRA）构建而成。音频编码器计算音频表示，通过线性投影映射到 LLM 嵌入空间，并与文本标记的嵌入进行拼接。模型通过“转录以下内容”等提示进行引导。

八、限制

输入长度：训练时的最大音频时长为 40 秒，最大标记序列长度为 1024 个标记（包括提示、音频和响应）。虽然模型可能技术上能够处理更长的序列，但其准确性可能会降低。
仅限 ASR 能力：模型不会将底层 LLM 的能力保留到语音模态。
仅支持英语：该模型仅使用英语数据进行训练。尽管底层编码器在预训练时还使用了德语、法语和西班牙语语音，但它不太可能作为一个可靠的多语言模型。

九、NVIDIA NeMo

要训练、微调或使用 Canary-Qwen-2.5B 进行转录，需要安装 NVIDIA NeMo。目前需要安装 NeMo 的最新主干版本，以及 PyTorch 2.6+，可通过命令 python -m pip install "nemo_toolkit[asr,tts] @ git+https://github.com/NVIDIA/NeMo.git" 安装。

十、如何使用该模型

该模型可在 NVIDIA NeMo 工具包中使用，可作为预训练检查点用于推理或在其他数据集上进行微调。加载模型的代码示例如下：

from nemo.collections.speechlm2.models import SALM
model = SALM.from_pretrained('nvidia/canary-qwen-2.5b')

输入包括音频和文本提示，音频格式为 .wav 或 .flac 文件，文本提示字符串为“转录以下内容：<|audioplaceholder|>”。输入参数包括音频的二维（批次，音频样本）和文本的一维（字符串）。输入音频为 16000 Hz 单声道音频，无需预处理。在 ASR 模式下，通过调用模型的 generate 方法并传入包含音频占位符的提示，可得到转录结果；在 LLM 模式下，通过禁用适配器并传入提示和转录文本，可得到生成结果。若要转录音频数据集，需指定输入为 jsonl 清单文件，每行是一个包含音频文件路径和时长字段的字典，然后使用相关命令进行转录。

十一、输出

输出类型为文本，输出格式为文本转录，以标记 ID 序列或字符串形式呈现。输出参数为一维文本字符串，可能需要逆文本归一化。该模型借助 NVIDIA 的硬件（如 GPU 核心）和软件框架（如 CUDA 库），相比仅使用 CPU 的解决方案，能够实现更快的训练和推理时间。

十二、软件集成

运行时引擎：NeMo - 2.5.0 或更高版本。
支持的硬件微架构兼容性：NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta。
优先支持的操作系统：Linux、Linux 4 Tegra、Windows。

十三、模型版本

Canary-Qwen-2.5B。

十四、训练

Canary-Qwen-2.5B 使用 NVIDIA NeMo 工具包在 32 个 NVIDIA A100 80GB GPU 上训练了 90k 步，LLM 参数保持冻结，语音编码器、投影和 LoRA 参数可训练。编码器的输出帧率为 80ms，即每秒 12.5 个标记。模型总共在约 13 亿个标记上进行训练（该数字包括语音编码器输出帧、文本响应标记、提示标记和聊天模板标记）。训练使用了示例脚本和基础配置，继承了 Qwen/Qwen3-1.7B 的分词器。

十五、训练和评估数据集

训练数据集：
- 总数据点数量：约 4000 万（语音，文本）对。
- 数据集总数：26 个，其中 18 个用于训练，8 个用于测试。
- 数据集划分：训练 99.6%，测试 0.04%，验证 0%（未使用）。
- 训练数据收集时间范围：1990 - 2025 年。
- 测试数据收集时间范围：2005 - 2022 年。
- 验证数据收集时间范围：不适用（未使用）。
- 数据收集方法：人类。
- 标注方法：混合（人类、自动化）。
- 英语（234.5k 小时）：主要训练数据来自 Granary 数据集的英语部分，包括 YouTube-Commons（109.5k 小时）、YODAS2（77k 小时）、LibriLight（13.6k 小时）等，此外还使用了 Librispeech、Fisher Corpus、Switchboard-1 数据集等。AMI 在模型训练中被过采样，占总数据的约 15%，使模型倾向于预测包含会话语音不流畅性（如重复）的逐字转录。训练转录包含标点和大写。
评估数据集：
- 数据收集方法：人类。
- 标注方法：人类。
- 自动语音识别：HuggingFace OpenASR 排行榜评估集。
- 幻觉鲁棒性：MUSAN 48 小时评估集。
- 噪声鲁棒性：Librispeech。
- 模型公平性：Casual Conversations 数据集。

十六、推理

推理引擎为 NVIDIA NeMo，测试硬件包括 A6000、A100、RTX 5090。

十七、伦理考量

NVIDIA 认为可信 AI 是共同的责任，并已建立政策和实践以支持各种 AI 应用的开发。当按照服务条款下载或使用该模型时，开发者应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决意外的产品滥用问题。关于该模型的伦理考量详细信息，可参阅模型卡片的可解释性、偏见、安全性和隐私子卡片。如有安全漏洞或 NVIDIA AI 问题，请在此处报告。

核心技术汇总表

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla