NVIDIA Canary-Qwen-2.5B

一、模型描述

NVIDIA NeMo Canary-Qwen-2.5B 是一款英语音频识别模型,在多个英语音频基准测试中达到了世界领先水平。该模型拥有 25 亿参数,运行速度为 418 RTFx,支持带标点和大写的英语自动语音转文本识别(ASR)。模型具有两种工作模式:作为转录工具的 ASR 模式和作为大型语言模型(LLM)的 LLM 模式。在 ASR 模式下,模型仅能将语音转录为文本,不具备 LLM 特有的推理等能力;在 LLM 模式下,模型保留了原始 LLM 的全部能力,可用于对转录文本进行后处理,例如总结或回答关于转录文本的问题,但此时模型不再“理解”原始音频,仅能处理其转录文本。该模型已准备好用于商业用途。

二、许可协议

Canary-Qwen-2.5B 采用 CC-BY-4.0 许可证发布,用户使用该模型即表示同意许可证的条款和条件。

三、参考文献

论文列出了一系列参考文献,包括关于准确语音识别与翻译无需网络规模数据的研究、快速 Conformer 编码器相关研究、注意力机制相关研究、Qwen/Qwen3-1.7B 模型卡片、编码器 - 解码器语音模型的训练和推理效率研究、NVIDIA NeMo 工具包、包含 25 种欧洲语言的语音识别和翻译数据集 Granary、关于衡量 AI 公平性的论文以及语音增强型语言模型相关研究等。

四、部署范围

该模型的部署范围为全球。

五、用途

该模型适用于需要英语音频转文本转录能力的用户,以及需要通过提示底层 LLM 来实现转录文本后处理能力的用户。典型用途包括转录、总结以及回答用户关于转录文本的问题。

六、发布日期

该模型于 2025 年 7 月 17 日通过 Huggingface 发布,可通过链接 https://huggingface.co/nvidia/canary-qwen-2.5b 获取。

七、模型架构

Canary-Qwen 是一种语音增强型语言模型(SALM),采用 FastConformer 编码器和 Transformer 解码器构建。它基于 nvidia/canary-1b-flash 和 Qwen/Qwen3-1.7B 两个基础模型,通过线性投影和应用于 LLM 的低秩适应(LoRA)构建而成。音频编码器计算音频表示,通过线性投影映射到 LLM 嵌入空间,并与文本标记的嵌入进行拼接。模型通过“转录以下内容”等提示进行引导。

八、限制

  • 输入长度:训练时的最大音频时长为 40 秒,最大标记序列长度为 1024 个标记(包括提示、音频和响应)。虽然模型可能技术上能够处理更长的序列,但其准确性可能会降低。

  • 仅限 ASR 能力:模型不会将底层 LLM 的能力保留到语音模态。

  • 仅支持英语:该模型仅使用英语数据进行训练。尽管底层编码器在预训练时还使用了德语、法语和西班牙语语音,但它不太可能作为一个可靠的多语言模型。

九、NVIDIA NeMo

要训练、微调或使用 Canary-Qwen-2.5B 进行转录,需要安装 NVIDIA NeMo。目前需要安装 NeMo 的最新主干版本,以及 PyTorch 2.6+,可通过命令 python -m pip install "nemo_toolkit[asr,tts] @ git+https://github.com/NVIDIA/NeMo.git" 安装。

十、如何使用该模型

该模型可在 NVIDIA NeMo 工具包中使用,可作为预训练检查点用于推理或在其他数据集上进行微调。加载模型的代码示例如下:

from nemo.collections.speechlm2.models import SALM
model = SALM.from_pretrained('nvidia/canary-qwen-2.5b')

输入包括音频和文本提示,音频格式为 .wav 或 .flac 文件,文本提示字符串为“转录以下内容:<|audioplaceholder|>”。输入参数包括音频的二维(批次,音频样本)和文本的一维(字符串)。输入音频为 16000 Hz 单声道音频,无需预处理。在 ASR 模式下,通过调用模型的 generate 方法并传入包含音频占位符的提示,可得到转录结果;在 LLM 模式下,通过禁用适配器并传入提示和转录文本,可得到生成结果。若要转录音频数据集,需指定输入为 jsonl 清单文件,每行是一个包含音频文件路径和时长字段的字典,然后使用相关命令进行转录。

十一、输出

输出类型为文本,输出格式为文本转录,以标记 ID 序列或字符串形式呈现。输出参数为一维文本字符串,可能需要逆文本归一化。该模型借助 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),相比仅使用 CPU 的解决方案,能够实现更快的训练和推理时间。

十二、软件集成

  • 运行时引擎:NeMo - 2.5.0 或更高版本。

  • 支持的硬件微架构兼容性:NVIDIA Ampere、NVIDIA Blackwell、NVIDIA Jetson、NVIDIA Hopper、NVIDIA Lovelace、NVIDIA Pascal、NVIDIA Turing、NVIDIA Volta。

  • 优先支持的操作系统:Linux、Linux 4 Tegra、Windows。

十三、模型版本

Canary-Qwen-2.5B。

十四、训练

Canary-Qwen-2.5B 使用 NVIDIA NeMo 工具包在 32 个 NVIDIA A100 80GB GPU 上训练了 90k 步,LLM 参数保持冻结,语音编码器、投影和 LoRA 参数可训练。编码器的输出帧率为 80ms,即每秒 12.5 个标记。模型总共在约 13 亿个标记上进行训练(该数字包括语音编码器输出帧、文本响应标记、提示标记和聊天模板标记)。训练使用了示例脚本和基础配置,继承了 Qwen/Qwen3-1.7B 的分词器。

十五、训练和评估数据集

  • 训练数据集

    • 总数据点数量:约 4000 万(语音,文本)对。

    • 数据集总数:26 个,其中 18 个用于训练,8 个用于测试。

    • 数据集划分:训练 99.6%,测试 0.04%,验证 0%(未使用)。

    • 训练数据收集时间范围:1990 - 2025 年。

    • 测试数据收集时间范围:2005 - 2022 年。

    • 验证数据收集时间范围:不适用(未使用)。

    • 数据收集方法:人类。

    • 标注方法:混合(人类、自动化)。

    • 英语(234.5k 小时):主要训练数据来自 Granary 数据集的英语部分,包括 YouTube-Commons(109.5k 小时)、YODAS2(77k 小时)、LibriLight(13.6k 小时)等,此外还使用了 Librispeech、Fisher Corpus、Switchboard-1 数据集等。AMI 在模型训练中被过采样,占总数据的约 15%,使模型倾向于预测包含会话语音不流畅性(如重复)的逐字转录。训练转录包含标点和大写。

  • 评估数据集

    • 数据收集方法:人类。

    • 标注方法:人类。

    • 自动语音识别:HuggingFace OpenASR 排行榜评估集。

    • 幻觉鲁棒性:MUSAN 48 小时评估集。

    • 噪声鲁棒性:Librispeech。

    • 模型公平性:Casual Conversations 数据集。

十六、推理

推理引擎为 NVIDIA NeMo,测试硬件包括 A6000、A100、RTX 5090。

十七、伦理考量

NVIDIA 认为可信 AI 是共同的责任,并已建立政策和实践以支持各种 AI 应用的开发。当按照服务条款下载或使用该模型时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品滥用问题。关于该模型的伦理考量详细信息,可参阅模型卡片的可解释性、偏见、安全性和隐私子卡片。如有安全漏洞或 NVIDIA AI 问题,请在此处报告。

核心技术汇总表

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐