阅读Qwen2-Audio技术报告

comli_cn

585人浏览 · 2025-09-10 15:58:57

comli_cn · 2025-09-10 15:58:57 发布

Abstract

我们介绍了 Qwen-Audio 的最新进展 —— 一个名为 Qwen2-Audio 的大规模音频-语言模型。该模型能够接受多种音频信号输入，并执行音频分析，或针对语音指令直接生成文本回应。与复杂的分层标签体系相比，我们简化了预训练流程，采用自然语言提示来覆盖不同的数据和任务，并进一步扩大了数据规模。我们增强了 Qwen2-Audio 的指令跟随能力，并实现了两种不同的音频交互模式：语音聊天模式和音频分析模式。在语音聊天模式下，用户可以在无需输入文本的情况下自由地与 Qwen2-Audio 进行语音互动；在音频分析模式下，用户可以在交互过程中同时提供音频和文本指令，以完成更复杂的分析。需要注意的是，我们没有使用任何系统提示来切换语音聊天和音频分析模式，Qwen2-Audio 能够智能地理解音频内容，并根据语音命令作出恰当回应。例如，在一个同时包含环境声、多说话人对话以及语音指令的音频片段中，Qwen2-Audio 能直接理解指令，并对音频进行解释和回应。此外，通过 DPO（Direct Preference Optimization），模型在事实性与行为一致性方面的表现得到了优化。根据 AIR-Bench 的评测结果，Qwen2-Audio 在以音频为核心的指令跟随能力测试中超越了此前的 SOTA 模型（例如 Gemini-1.5-pro）。Qwen2-Audio 已经开源，旨在推动多模态语言社区的发展。

1. Introduction

音频是人类及其他生物进行交互和交流的重要媒介，承载着丰富的信息内容。要实现通用人工智能（AGI），全面理解各种形式的音频信号至关重要。近年来，大规模音频-语言模型（LALMs）的发展取得了重大进展，在理解多样化语音信号、执行语音信号分析以及复杂推理方面展现出了卓越的成果。

在本报告中，我们提出了 Qwen2-Audio，其主要目标是提升模型的指令跟随能力。Qwen2-Audio 是一个大规模音频-语言模型（LALM），能够同时处理音频和文本输入，并生成文本输出。与以往的模型相比，Qwen2-Audio 在训练数据规模上实现了大幅扩展。为缩小预训练与后训练阶段之间的差距，我们简化了预训练流程，直接使用自然语言提示来覆盖不同的数据和任务（如图 2 所示）。在此基础上，借鉴大语言模型（LLM）的实践，我们进一步进行了指令微调和直接偏好优化（DPO），以使模型的输出更好地符合人类偏好。

图2：Qwen2 Audio三阶段训练过程概览

Qwen2-Audio 具有两种不同的工作模式：音频分析模式和语音聊天模式。这两种模式在功能上有所区别，但用户在使用时无需主动区分。在音频分析模式下，用户可以利用 Qwen2-Audio 来分析多种类型的音频，包括语音、声音、音乐或各种混合音频形式。指令既可以通过音频发出，也可以通过文本发出，Qwen2-Audio 会自动识别音频中的指令片段。相反，在语音聊天模式下，用户可以像与一个对话代理进行交流一样，与 Qwen2-Audio 进行不受限制的对话。该模式支持音频交互，用户也可以在任何时候切换到文本交互。例如，当用户输入一段音频片段，其中前半部分是键盘敲击的声音，随后用户用口语问：“这是什么声音？”，Qwen2-Audio 预期会直接回答：“这是键盘的声音。”

如图 1 所示，大量评测结果表明，在没有进行任何特定任务微调的情况下，Qwen2-Audio 在多种任务上均优于以往的大规模音频-语言模型（LALMs）。其中，Qwen2-Audio 在 Aishell2、FLUERS-zh、VocalSound 和 AIR-Bench 对话基准测试的测试集上均取得了当前最先进（SOTA）的表现。

2. Methodology

模型结构 Qwen2-Audio 的训练过程如图 2 所示，其中包含一个音频编码器和一个大型语言模型。给定配对数据 $(a, x)$ ，其中 $a$ 表示音频序列， $x$ 表示文本序列，训练目标是在给定音频表示和先前文本序列 $x_{\lt t}$ 的条件下，最大化下一个文本 token 的概率：

$\mathcal{P}_{\theta}(x_t|x_{\lt t, \mathrm{Encoder}_{\phi}(a)})$

这里， $\theta$ 和 $\phi$ 分别表示大型语言模型和音频编码器的可训练参数。

与 Qwen-Audio 不同，Qwen2-Audio 的音频编码器初始化基于 Whisper-large-v3 模型（Radford 等，2023）。在音频数据预处理阶段，我们将其重采样到 16kHz 频率，并使用 25ms 的窗口大小和 10ms 的帧移将原始波形转换为 128 通道的梅尔频谱图。此外，我们引入了一个步幅为 2 的池化层，以缩短音频表示的长度。这样一来，编码器输出的每一帧大约对应原始音频信号的 40ms 片段。Qwen2-Audio 依然采用大型语言模型 Qwen-7B（Bai 等，2023）作为其基础组件。Qwen2-Audio 的参数总量为 82 亿。

按照huggingface里对Qwen-7B的介绍引入NTK插值，LogN注意力缩放，窗口注意力等技巧将Qwen-7B支持的上下文长度从8K扩到32K。

预训练 在预训练阶段，我们将分层标签（Chu 等，2023）替换为自然语言提示。如图 2 所示，我们发现使用语言提示能够带来更好的泛化能力和更强的指令跟随能力。

**监督微调（SFT）**Qwen2-Audio 经过充分的预训练，使模型具备了对音频内容的全面理解。在此基础上，我们采用基于指令的微调技术，以提升模型对人类意图的对齐能力，从而形成一个可交互的聊天模型。我们的初步研究强调了 SFT（监督微调）数据的质量和复杂性对模型性能的关键影响。为此，我们精心收集了一套高质量的 SFT 数据，并实施了严格的质量控制流程。

我们考虑了两种不同的人机交互模式：

音频分析（Audio Analysis）：在音频分析模式下，用户可以让 Qwen2-Audio 对各种音频进行分析。用户的指令可以通过音频或文本方式提供。该模式通常用于对音频文件的离线分析。
语音聊天（Voice Chat）：在语音聊天模式下，鼓励用户与 Qwen2-Audio 进行语音对话，提出各种问题。你可以将其视为你的语音聊天助手。该模式通常用于与大语言模型（LALMs）的在线交互。

为了保持一致性和模型的统一性，这两种交互模式是联合训练的，因此用户在使用时不会感受到模式差异，也无需通过不同的系统提示切换模式。在实际使用中，这两种模式是无缝集成的。

直接偏好优化（Direct Preference Optimization） 我们采用 DPO（Rafailov 等, 2024）来进一步优化模型以更好地遵循人类偏好。通过获取数据集 $D$ ，其中包含三元组数据 $x, y_w, y_l)$ ： $x$ 为带有输入音频的输入序列， $y_w$ 和 $y_l$ 分别为人工标注的优质回答和劣质回答，我们按如下方式对模型 $\mathcal{P}_{\theta}$ 进行优化：

$$
\mathcal{L}{\text{DPO}}(\mathcal{P}\theta; \mathcal{P}_{\text{ref}}) =

\mathbb{E}{(x, y_w, y_l) \sim \mathcal{D}}
\Bigg[
\log \sigma \Big(
\beta \frac{\mathcal{P}\theta(y_w \mid x)}{\mathcal{P}_{\text{ref}}(y_w \mid x)}
\beta \frac{\mathcal{P}\theta(y_l \mid x)}{\mathcal{P}{\text{ref}}(y_l \mid x)}
\Big)
\Bigg]
$$

其中 $\mathcal{P}_{ref}$ 表示以 $\mathcal{P}_\theta$ 初始化的参考模型， $\sigma$ 代表 sigmoid 函数， $\beta$ 是一个超参数。图 2 展示了 Qwen2-Audio 的三阶段训练过程。

3. Experiments

3.1 Evaluation

在实践中，我们发现许多以往的测试数据集存在较大局限，无法充分反映真实场景下的性能，例如部分 SLU（口语理解）和 SER（语音情感识别）数据集。因此，我们主要在 AIR-Bench 上直接评估性能。结果表明，AIR-Bench 的得分与实际用户交互体验更加接近。

与此同时，为了评估 Qwen2-Audio 的通用理解能力，如表 1 所示，我们依然进行了涵盖多种任务的综合评测，包括：自动语音识别（ASR），语音到文本翻译（S2TT），语音情感识别（SER），声音分类（VSC）。评测覆盖了 13 个数据集。这些评测数据集均经过严格筛选，确保与训练数据不重合，以避免数据泄漏。我们对比的模型包括开源模型以及可调用的 API（如 Gemini）。

3.2 Main Results

在本节中，我们对 Qwen2-Audio 模型进行了全面评测，评估其在未经过任何任务特定微调情况下的多任务表现。我们首先考察了其在英语自动语音识别（ASR）上的结果（见表 2）。Qwen2-Audio 相较于以往的多任务学习模型表现更优：在 librispeech test-clean 和 test-other 数据集上分别达到了 1.6% 和 3.6% 的词错误率（WER）。与 Whisper-large-v3 在 Fleurs 中文子集上的结果相比，Qwen2-Audio 也取得了更好的性能。需要注意的是，Qwen2-Audio 在 Common Voice 15 数据集上并非零样本（zero-shot）评测，而 Whisper 的结果则是零样本模式获得的；但在 Fleurs 数据集上，Qwen2-Audio 和 Whisper 都是在零样本模式下进行评测的。此外，我们还在 CoVoST2 数据集上评估了 Qwen2-Audio 的语音翻译能力。结果表明，在全部 7 个翻译方向上，Qwen2-Audio 的表现均显著优于基线模型。在声音相关任务上，我们进一步分析了 Qwen2-Audio 在语音情感识别（SER）和声音分类（VSC）任务中的表现（见表 2）。在这些任务上，Qwen2-Audio 同样大幅超越了基线模型。

最后，为了客观评估 Qwen2-Audio 的对话能力，我们在 AIR-Bench 的聊天基准（Yang 等, 2024）上对其表现进行了测评。需要注意的是，由于 Gemini-1.5（Reid 等, 2024）在测试过程中因安全（SAFETY）原因无法正确返回部分测试样本，其在 AIR-Bench-chat 上的样本数量减少了大约 1/5。

如表 2 所示，Qwen2-Audio 在语音、声音、音乐以及混合音频子集上展现出了最先进（SOTA）的指令跟随能力。与 Qwen-Audio 相比，它有了显著提升，并且在性能上大幅超越了其他 LALMs。

表2：自动语音识别（ASR）、语音到文本翻译（S2TT）、语音情感识别（SER）、声音分类（VSC）以及 AIR-Bench 聊天基准的结果。需要注意的是，对于 Qwen2-Audio，其在 Fleurs 数据集上的结果是零样本（zero-shot），而在 Common Voice 数据集上的结果则不是零样本。

4 Cases

这里我们展示了一部分案例，用以说明 Qwen2-Audio 的基于音频的交互能力。更多精彩示例请参见——Qwen2-Audio。

图4：展示 Qwen2-Audio 在语音自由聊天中的能力示例

5. Conclusion

在本文中，我们介绍了 Qwen2-Audio。它不仅继承了 Qwen-Audio 对多种类型音频进行分析的能力，还具备了语音交互功能。在预训练阶段，我们针对不同的数据与任务使用了自然语言提示，并进一步扩充了数据规模。
在 SFT 阶段，通过增加 SFT 数据的数量、质量和复杂性，我们强化了 Qwen2-Audio 与人类交互的对齐能力，从而实现了语音与文本的无缝交互。此外，在 DPO 阶段，我们提升了 Qwen2-Audio 的回答质量。在多种基准上的客观指标测试表明，Qwen2-Audio 在音频理解与对话能力方面表现出色。文中展示的案例也体现了 Qwen2-Audio 流畅而灵活的语音交互能力。

图5：展示 Qwen2-Audio 在语音相关自由聊天中的能力示例

图6：展示 Qwen2-Audio 在语音与自然声音相关自由聊天中的能力示例

图7：展示Qwen2-Audio在语音分析方面的能力示例

图8：展示Qwen2-Audio在声音分析方面的能力示例

图9：展示Qwen2-Audio在音乐分析方面的能力示例

图10：展示Qwen2-Audio在混合音频分析中的鲁棒性示例

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla