阅读Qwen2-Audio技术报告
我们介绍了 Qwen-Audio 的最新进展 —— 一个名为 Qwen2-Audio 的大规模音频-语言模型。该模型能够接受多种音频信号输入,并执行音频分析,或针对语音指令直接生成文本回应。与复杂的分层标签体系相比,我们简化了预训练流程,采用自然语言提示来覆盖不同的数据和任务,并进一步扩大了数据规模。我们增强了 Qwen2-Audio 的指令跟随能力,并实现了两种不同的音频交互模式:语音聊天模式和
Abstract
我们介绍了 Qwen-Audio 的最新进展 —— 一个名为 Qwen2-Audio 的大规模音频-语言模型。该模型能够接受多种音频信号输入,并执行音频分析,或针对语音指令直接生成文本回应。与复杂的分层标签体系相比,我们简化了预训练流程,采用自然语言提示来覆盖不同的数据和任务,并进一步扩大了数据规模。我们增强了 Qwen2-Audio 的指令跟随能力,并实现了两种不同的音频交互模式:语音聊天模式和音频分析模式。在语音聊天模式下,用户可以在无需输入文本的情况下自由地与 Qwen2-Audio 进行语音互动;在音频分析模式下,用户可以在交互过程中同时提供音频和文本指令,以完成更复杂的分析。需要注意的是,我们没有使用任何系统提示来切换语音聊天和音频分析模式,Qwen2-Audio 能够智能地理解音频内容,并根据语音命令作出恰当回应。例如,在一个同时包含环境声、多说话人对话以及语音指令的音频片段中,Qwen2-Audio 能直接理解指令,并对音频进行解释和回应。此外,通过 DPO(Direct Preference Optimization),模型在事实性与行为一致性方面的表现得到了优化。根据 AIR-Bench 的评测结果,Qwen2-Audio 在以音频为核心的指令跟随能力测试中超越了此前的 SOTA 模型(例如 Gemini-1.5-pro)。Qwen2-Audio 已经开源,旨在推动多模态语言社区的发展。
1. Introduction
音频是人类及其他生物进行交互和交流的重要媒介,承载着丰富的信息内容。要实现通用人工智能(AGI),全面理解各种形式的音频信号至关重要。近年来,大规模音频-语言模型(LALMs)的发展取得了重大进展,在理解多样化语音信号、执行语音信号分析以及复杂推理方面展现出了卓越的成果。
在本报告中,我们提出了 Qwen2-Audio,其主要目标是提升模型的指令跟随能力。Qwen2-Audio 是一个大规模音频-语言模型(LALM),能够同时处理音频和文本输入,并生成文本输出。与以往的模型相比,Qwen2-Audio 在训练数据规模上实现了大幅扩展。为缩小预训练与后训练阶段之间的差距,我们简化了预训练流程,直接使用自然语言提示来覆盖不同的数据和任务(如图 2 所示)。在此基础上,借鉴大语言模型(LLM)的实践,我们进一步进行了指令微调和直接偏好优化(DPO),以使模型的输出更好地符合人类偏好。

Qwen2-Audio 具有两种不同的工作模式:音频分析模式和语音聊天模式。这两种模式在功能上有所区别,但用户在使用时无需主动区分。在音频分析模式 下,用户可以利用 Qwen2-Audio 来分析多种类型的音频,包括语音、声音、音乐或各种混合音频形式。指令既可以通过音频发出,也可以通过文本发出,Qwen2-Audio 会自动识别音频中的指令片段。相反,在 语音聊天模式 下,用户可以像与一个对话代理进行交流一样,与 Qwen2-Audio 进行不受限制的对话。该模式支持音频交互,用户也可以在任何时候切换到文本交互。例如,当用户输入一段音频片段,其中前半部分是键盘敲击的声音,随后用户用口语问:“这是什么声音?”,Qwen2-Audio 预期会直接回答:“这是键盘的声音。”
如图 1 所示,大量评测结果表明,在没有进行任何特定任务微调的情况下,Qwen2-Audio 在多种任务上均优于以往的大规模音频-语言模型(LALMs)。其中,Qwen2-Audio 在 Aishell2、FLUERS-zh、VocalSound 和 AIR-Bench 对话基准测试 的测试集上均取得了当前最先进(SOTA)的表现。

2. Methodology
模型结构 Qwen2-Audio 的训练过程如图 2 所示,其中包含一个音频编码器和一个大型语言模型。给定配对数据 ( a , x ) (a, x) (a,x),其中 a a a 表示音频序列, x x x 表示文本序列,训练目标是在给定音频表示和先前文本序列 x < t x_{\lt t} x<t 的条件下,最大化下一个文本 token 的概率:
P θ ( x t ∣ x < t , E n c o d e r ϕ ( a ) ) \mathcal{P}_{\theta}(x_t|x_{\lt t, \mathrm{Encoder}_{\phi}(a)}) Pθ(xt∣x<t,Encoderϕ(a))
这里, θ \theta θ 和 ϕ \phi ϕ 分别表示大型语言模型和音频编码器的可训练参数。
与 Qwen-Audio 不同,Qwen2-Audio 的音频编码器初始化基于 Whisper-large-v3 模型(Radford 等,2023)。在音频数据预处理阶段,我们将其重采样到 16kHz 频率,并使用 25ms 的窗口大小和 10ms 的帧移将原始波形转换为 128 通道的梅尔频谱图。此外,我们引入了一个步幅为 2 的池化层,以缩短音频表示的长度。这样一来,编码器输出的每一帧大约对应原始音频信号的 40ms 片段。Qwen2-Audio 依然采用大型语言模型 Qwen-7B(Bai 等,2023)作为其基础组件。Qwen2-Audio 的参数总量为 82 亿。
按照huggingface里对Qwen-7B的介绍引入NTK插值,LogN注意力缩放,窗口注意力等技巧将Qwen-7B支持的上下文长度从8K扩到32K。
预训练 在预训练阶段,我们将分层标签(Chu 等,2023)替换为自然语言提示。如图 2 所示,我们发现使用语言提示能够带来更好的泛化能力和更强的指令跟随能力。
**监督微调(SFT)**Qwen2-Audio 经过充分的预训练,使模型具备了对音频内容的全面理解。在此基础上,我们采用基于指令的微调技术,以提升模型对人类意图的对齐能力,从而形成一个可交互的聊天模型。我们的初步研究强调了 SFT(监督微调)数据的质量和复杂性对模型性能的关键影响。为此,我们精心收集了一套高质量的 SFT 数据,并实施了严格的质量控制流程。
我们考虑了两种不同的人机交互模式:
- 音频分析(Audio Analysis):在音频分析模式下,用户可以让 Qwen2-Audio 对各种音频进行分析。用户的指令可以通过 音频或文本 方式提供。该模式通常用于对音频文件的 离线分析。
- 语音聊天(Voice Chat):在语音聊天模式下,鼓励用户与 Qwen2-Audio 进行 语音对话,提出各种问题。你可以将其视为你的语音聊天助手。该模式通常用于与大语言模型(LALMs) 的在线交互。
为了保持一致性和模型的统一性,这两种交互模式是联合训练的,因此用户在使用时不会感受到模式差异,也无需通过不同的系统提示切换模式。在实际使用中,这两种模式是无缝集成的。
直接偏好优化(Direct Preference Optimization) 我们采用 DPO(Rafailov 等, 2024) 来进一步优化模型以更好地遵循人类偏好。通过获取数据集 D D D,其中包含三元组数据 ( x , y w , y l ) (x, y_w, y_l) (x,yw,yl): x x x 为带有输入音频的输入序列, y w y_w yw 和 y l y_l yl 分别为人工标注的优质回答和劣质回答,我们按如下方式对模型 P θ \mathcal{P}_{\theta} Pθ 进行优化:
$$
\mathcal{L}{\text{DPO}}(\mathcal{P}\theta; \mathcal{P}_{\text{ref}}) =
- \mathbb{E}{(x, y_w, y_l) \sim \mathcal{D}}
\Bigg[
\log \sigma \Big(
\beta \frac{\mathcal{P}\theta(y_w \mid x)}{\mathcal{P}_{\text{ref}}(y_w \mid x)} - \beta \frac{\mathcal{P}\theta(y_l \mid x)}{\mathcal{P}{\text{ref}}(y_l \mid x)}
\Big)
\Bigg]
$$
其中 P r e f \mathcal{P}_{ref} Pref 表示以 P θ \mathcal{P}_\theta Pθ 初始化的参考模型, σ \sigma σ 代表 sigmoid 函数, β \beta β 是一个超参数。图 2 展示了 Qwen2-Audio 的三阶段训练过程。
3. Experiments
3.1 Evaluation
在实践中,我们发现许多以往的测试数据集存在较大局限,无法充分反映真实场景下的性能,例如部分 SLU(口语理解) 和 SER(语音情感识别) 数据集。 因此,我们主要在 AIR-Bench 上直接评估性能。结果表明,AIR-Bench 的得分与实际用户交互体验更加接近。
与此同时,为了评估 Qwen2-Audio 的通用理解能力,如表 1 所示,我们依然进行了涵盖多种任务的综合评测,包括:自动语音识别(ASR),语音到文本翻译(S2TT),语音情感识别(SER),声音分类(VSC)。评测覆盖了 13 个数据集。这些评测数据集均经过严格筛选,确保与训练数据不重合,以避免数据泄漏。我们对比的模型包括开源模型以及可调用的 API(如 Gemini)。
3.2 Main Results
在本节中,我们对 Qwen2-Audio 模型进行了全面评测,评估其在 未经过任何任务特定微调 情况下的多任务表现。我们首先考察了其在 英语自动语音识别(ASR) 上的结果(见表 2)。Qwen2-Audio 相较于以往的多任务学习模型表现更优:在 librispeech test-clean 和 test-other 数据集上分别达到了 1.6% 和 3.6% 的词错误率(WER)。与 Whisper-large-v3 在 Fleurs 中文子集 上的结果相比,Qwen2-Audio 也取得了更好的性能。需要注意的是,Qwen2-Audio 在 Common Voice 15 数据集上 并非零样本(zero-shot)评测,而 Whisper 的结果则是零样本模式获得的;但在 Fleurs 数据集上,Qwen2-Audio 和 Whisper 都是在零样本模式下进行评测的。此外,我们还在 CoVoST2 数据集上评估了 Qwen2-Audio 的语音翻译能力。结果表明,在全部 7 个翻译方向 上,Qwen2-Audio 的表现均显著优于基线模型。在声音相关任务 上,我们进一步分析了 Qwen2-Audio 在 语音情感识别(SER) 和 声音分类(VSC) 任务中的表现(见表 2)。在这些任务上,Qwen2-Audio 同样大幅超越了基线模型。
最后,为了客观评估 Qwen2-Audio 的对话能力,我们在 AIR-Bench 的聊天基准(Yang 等, 2024) 上对其表现进行了测评。需要注意的是,由于 Gemini-1.5(Reid 等, 2024) 在测试过程中因 安全(SAFETY)原因 无法正确返回部分测试样本,其在 AIR-Bench-chat 上的样本数量减少了大约 1/5。
如表 2 所示,Qwen2-Audio 在 语音、声音、音乐以及混合音频子集 上展现出了 最先进(SOTA) 的指令跟随能力。与 Qwen-Audio 相比,它有了显著提升,并且在性能上 大幅超越了其他 LALMs。

4 Cases
这里我们展示了一部分案例,用以说明 Qwen2-Audio 的基于音频的交互能力。更多精彩示例请参见——Qwen2-Audio。

5. Conclusion
在本文中,我们介绍了 Qwen2-Audio。它不仅继承了 Qwen-Audio 对多种类型音频进行分析的能力,还具备了语音交互功能。在预训练阶段,我们针对不同的数据与任务使用了自然语言提示,并进一步扩充了数据规模。
在 SFT 阶段,通过增加 SFT 数据的数量、质量和复杂性,我们强化了 Qwen2-Audio 与人类交互的对齐能力,从而实现了语音与文本的无缝交互。此外,在 DPO 阶段,我们提升了 Qwen2-Audio 的回答质量。在多种基准上的客观指标测试表明,Qwen2-Audio 在音频理解与对话能力方面表现出色。文中展示的案例也体现了 Qwen2-Audio 流畅而灵活的语音交互能力。






更多推荐
所有评论(0)