Qwen3-Omni 技术报告
Qwen3-Omni是首个在文本、图像、音频和视频四种模态上均保持SOTA性能的统一多模态模型。该模型采用"思考器-发声器"混合专家架构,支持119种文本语言、19种语音理解和10种语音生成语言,能处理长达40分钟的音频输入。在36项音频基准测试中,Qwen3-Omni在32项开源最优,22项全面最优。通过多码本流式语音生成等技术,模型实现端到端首包延迟低至234毫秒。研究表明
本文提出了多模态模型 Qwen3-Omni,这是首个在文本、图像、音频和视频四种模态上均保持当前最优性能(state-of-the-art,SOTA),且相较于单模态模型性能无任何下降的单一多模态模型。Qwen3-Omni 的性能与 Qwen 系列中相同规模的单模态模型相当,尤其在音频任务上表现突出。在 36 项音频及音视频基准测试中,Qwen3-Omni 在 32 项测试中取得开源领域最优成绩,在 22 项测试中实现整体最优,性能超过 Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe 等性能强劲的闭源模型。
Qwen3-Omni 采用 “思考器 - 发声器” 混合专家(Thinker–Talker Mixture-of-Experts,MoE)架构,实现了文本、图像、音频、视频四种模态的感知与生成能力统一,能够生成流畅的文本和自然的实时语音。该模型支持 119 种语言的文本交互、19 种语言的语音理解以及 10 种语言的语音生成。在自动语音识别(ASR)和口语理解任务中,系统单次可处理长达 40 分钟的音频录制内容,为不同地区用户提供高质量的音频和音视频体验。此外,Qwen3-Omni 具备出色的指令遵循能力,用户可通过自定义系统提示,对对话语气和角色人设进行精细化定制。
为降低流式合成中的首包延迟,发声器(Talker)采用多码本方案,自回归预测离散语音编解码器(codec)。借助这些码本的表征能力,研究团队用轻量级因果卷积网络(causal ConvNet)替代计算密集型的分块扩散模型(block-wise diffusion),实现了从首个编解码器帧开始的流式输出。在冷启动场景(无前置上下文)下,Qwen3-Omni 的理论端到端首包延迟可达 234 毫秒。
为进一步增强多模态推理能力,研究团队引入 “思考模型”(Thinking model),该模型可对任意模态的输入进行显式推理。鉴于当前研究领域缺乏通用的音频描述生成模型,团队对 Qwen3-Omni-30B-A3B 进行微调,得到 Qwen3-Omni-30B-A3B-Captioner,该模型能为任意音频输入生成细节丰富且幻觉度低的描述文本。目前,Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 及 Qwen3-Omni-30B-A3B-Captioner 已基于 Apache 2.0 协议开源。
人类能并行感知视觉与听觉输入,对这些信号进行认知处理后,通过文本表达、发声及工具辅助或身体动作输出响应,从而实现与其他生物的信息交互,展现出智能特性。随着单模态大型模型在理解与推理能力上的快速发展,原生多模态系统已受到广泛关注。
人类的学习过程通常依赖多种模态的协同运用,不同模态的互补专长与跨模态协同可提升学习效率。然而,当前以大型语言模型(LLM)为核心的多模态模型往往存在 “模态权衡” 问题:某一模态性能提升的同时,其他模态性能会下降。
本报告旨在探索主流 LLM 范式下的一体化多模态训练方法,以解决这一局限性。研究表明,多模态联合训练可实现所有模态性能 “持平”(即无模态特异性性能下降),同时显著增强视频理解等跨模态能力。关键策略之一是在文本预训练早期阶段融合单模态与跨模态数据。以 Qwen3-Omni-30B-A3B-Base 为例,在大量基准测试中,其文本与视觉性能与相同规模的单模态文本 / 视觉基础模型相当,同时还具备出色的音频能力、音视频理解能力、跨模态 “思考” 能力及实时音视频交互能力。

图 1:Qwen3-Omni 是一款统一的端到端模型,能够处理文本、音频、图像、视频等多种模态数据,并生成实时文本或语音响应。依托这些特性,Qwen3-Omni 支持各类任务,包括但不限于语音对话、视频对话以及视频推理。
研发 “无性能下降的多模态系统” 已成为可实现的目标。这类系统具有两个核心特性:一是能在各模态任务中匹配专用单模态模型的性能;二是支持全新的跨模态推理与交互能力。后者是传统单模态方法所不具备的,构成了显著优势。
Qwen3-Omni 基于 Qwen2.5-Omni提出的 “思考器 - 发声器”(Thinker–Talker)架构,进行了五项关键升级:
-
思考器(Thinker)与发声器(Talker)均升级为混合专家(MoE)设计;
-
用全新的音频 Transformer(AuT)编码器替代 Whisper 音频编码器,该编码器基于 2000 万小时有监督音频数据从零训练,能生成更强的通用音频表征。AuT 采用分块窗口注意力机制(block-wise window attention),支持实时预填充缓存(prefill caching);
-
在语音生成端采用多码本表征(multi-codebook representation),其更高的容量可精准建模不同音色、副语言特征(如语气、语调)及声学现象;
-
发声器从单轨编解码器建模转向多轨编解码器建模,通过多 token 预测(MTP)模块自回归预测多个码本层,同时在波形生成阶段(Code2Wav)用轻量级卷积网络(ConvNet)替代分块扩散 Transformer(block-wise DiT);
-
输入与输出音频的码率降至 12.5 Hz,输出编解码器支持单帧即时语音合成。
上述改进共同作用,使 Qwen3-Omni 在工业级部署的高并发场景下,能实现低延迟语音交互。
与 Qwen2.5-Omni 相比,Qwen3-Omni 主要有四项改进:
-
支持处理超过 40 分钟的音频输入以实现音频理解;
-
扩展语言覆盖范围:文本语言 119 种,语音理解语言 19 种,语音生成语言 10 种;
-
引入 “思考模型”(Thinking model),支持全模态推理,涵盖音视频及纯音频场景;
-
提升流式性能,端到端延迟低至 234 毫秒。
关键在于,Qwen3-Omni 在文本与视觉模态上保持了当前最优性能,且相较于相同规模的 Qwen 系列单模态模型无性能下降。在 36 项音频及音视频基准测试中,其在 32 项测试中取得开源领域最优,在 22 项测试中实现整体最优,性能超过 Gemini 2.5 Pro、Seed-ASR、GPT-4o-Transcribe 等性能强劲的闭源系统。

图 2:Qwen3-Omni 架构总览。Qwen3-Omni 采用 “思考器 - 发声器”(Thinker-Talker)架构:思考器(Thinker)负责文本生成,而发声器(Talker)通过直接接收来自思考器的高层表征,专注于生成流式语音 token。为实现超低延迟流式传输,发声器采用自回归方式预测多码本序列。在每个解码步骤中,多 token 预测(MTP)模块输出当前帧的残差码本,随后音频波形生成(Code2Wav)渲染器逐步合成对应的波形,从而实现逐帧流式生成。
架构
整体概述
如图 2 所示,Qwen3-Omni 采用 “思考器 - 发声器” 架构。与 Qwen2.5-Omni 相比,Qwen3-Omni 为提升扩展性与可控性,做出了以下改进:
-
思考器与发声器均采用混合专家(MoE)架构,以支持高并发与快速推理;
-
发声器不再接收思考器的高层文本表征,仅以音频和视觉多模态特征为条件进行建模。该设计基于两点考量:(1)对于文本内容,离散 token 与嵌入向量(embedding)在信息层面等效;(2)音视频协同语音生成(如语音翻译中保持韵律 / 音色)需多模态条件约束。此外,这种解耦设计允许外部模块(如检索增强生成(RAG)、函数调用、安全过滤模块)对思考器的文本输出进行干预,若需,还可通过受控预处理向发声器提供文本以实现流式合成;
-
由于文本表征已解耦,思考器与发声器可使用不同的系统提示,分别控制思考器的响应风格与发声器的音频风格;
-
发声器采用多码本自回归方案:每一步生成一个编解码器帧,MTP 模块生成剩余的残差码本;
-
音频波形生成模块(Code2Wav)基于轻量级因果卷积网络实现,简化了音频合成的最后阶段。
在训练与推理过程中,发声器直接接收来自思考器的高维多模态特征,并共享完整的对话历史。因此,整个系统作为一个紧密协同的单一模型运行,支持端到端训练与统一推理。
下文将首先介绍新提出的 AuT 编码器及其训练方法,然后阐述思考器如何处理各类输入,接着详细说明发声器的多码本流式语音生成机制,最后重点介绍在理解与生成模块上的一系列改进,以实现超低延迟的端到端流式音频推理。

图 3:AuT(音频 Transformer)架构总览。AuT 是一种基于注意力编码 - 解码器的自回归模型,其训练过程从零开始,使用了 2000 万小时的有监督音频数据。在 Qwen3-Omni 中,AuT 编码器被用作音频编码器,以 12.5Hz 的 token 速率获取通用音频表征。
音频 Transformer(AuT)
音频 Transformer(AuT)是一种注意力编码 - 解码模型(如图 3 所示),基于 2000 万小时有监督音频数据从零训练。训练过程中,音频的滤波器组特征(filter bank features)先通过卷积神经网络(Conv2D)块下采样 8 倍,再进入注意力层,使 token 率降至 12.5 Hz。
为学习更强、更通用的音频表征,AuT 在大规模音频数据集上训练,涵盖语音识别与音频理解任务。具体而言,训练数据包括 80% 的中英双语伪标注 ASR 数据、10% 的其他语言 ASR 数据,以及 10% 的音频理解数据。
为平衡实时预填充缓存效率与离线音频任务性能,AuT 采用动态注意力窗口大小的闪速注意力(flash attention),覆盖 1 至 8 秒的注意力查询范围。在 Qwen3-Omni 中,AuT 编码器作为音频编码器使用,参数规模约为 6 亿。
感知模块(Perceivation)
Qwen3-Omni 的感知模块负责将文本、音频、图像及无音频视频(Video w/o Audio)转换为一系列输入表征。
- 文本输入
采用 Qwen 系列的分词器(Yang et al., 2025a),该分词器基于字节级字节对编码(byte-level byte-pair encoding),包含 151,643 个常规 token;
- 音频输入及视频提取音频
先重采样至 16 kHz,再将原始波形转换为 128 通道梅尔频谱图(mel-spectrogram),窗口大小 25 毫秒,步长 10 毫秒。音频编码器采用 AuT,基于 2000 万小时音频数据从零训练,每帧音频表征对应原始音频中约 80 毫秒的片段;
- 图像与视频输入
视觉编码器源自 Qwen3-VL,初始化参数来自 SigLIP2-So400m(Tschannen et al., 2025),参数规模约 5.43 亿,可同时处理图像与视频输入。该视觉编码器在图像与视频混合数据集上训练,确保具备出色的图像理解与视频理解能力。为在与音频采样率对齐的同时尽可能完整保留视频信息,采用动态帧率对视频帧进行采样。
视频与多模态位置嵌入(TM-RoPE)
受 Qwen2.5-Omni 启发,Qwen3-Omni 采用时间对齐多模态旋转位置嵌入(Time-aligned Multimodal Rotary Position Embedding, TM-RoPE)。该嵌入方法在多模态旋转位置嵌入(M-RoPE)(Bai et al., 2023b)的基础上,融入了绝对时间信息,将传统旋转位置嵌入分解为时间、高度、宽度三个独立维度。
在原始 M-RoPE 中,时间依赖关系通过前 16 个旋转角度建模,这些角度对应较高频率,振荡模式更强。这种设计虽能捕捉细粒度的局部时间变化,但会阻碍模型对长序列的外推能力。为解决这一问题,研究团队调整了旋转角度的分配方式:将时间、高度、宽度维度交错排列,分别分配 24、20、20 个旋转角度。这种调整使模型能更均衡地表征局部语义与长程依赖,从而提升整体性能。
TM-RoPE 的应用会根据输入数据的模态进行适配:
- 文本输入
三个维度共享相同的位置标识,此时 TM-RoPE 功能上等同于一维旋转位置嵌入(RoPE)(Su et al., 2024);
- 音频输入
共享位置标识,但额外增加绝对时间编码,每个时间标识对应 80 毫秒时长;
- 图像数据
所有视觉 token 分配相同的时间标识,高度与宽度标识则由其各自的行、列位置决定。
在多模态音视频流场景中:
-
音频部分每 80 毫秒对应一个时间标识;
-
视频被视为一帧序列,其时间标识单调递增,并根据实际时间戳动态调整,确保每个标识对应 80 毫秒的统一时间分辨率;
-
视频帧的高度与宽度标识分配方式与静态图像一致。
为避免处理多模态时的位置冲突,位置编号采用连续方式:后一模态的起始位置标识为前一模态的最大位置标识加 1。这种精细化的位置编码方法,使模型能有效整合并联合建模不同模态的信息。
与 Qwen2.5-Omni 将音视频表征分割为固定 2 秒块不同,Qwen3-Omni 直接通过与绝对时间锚定的时间标识对齐音视频表征,这种设计使模型可灵活支持任意时长的流式输入。
语音生成
在多轮对话的语音合成任务中,发声器(Talker)模块以 “思考器”(Thinker)传递的丰富上下文为条件进行建模,这些上下文包括历史文本 token、多模态表征及当前轮次的流式文本。对长上下文信息的依赖至关重要,因为高保真语音合成需根据对话进程调整韵律、响度、情感等声学属性 —— 这是上下文感知生成模型的核心原则。
在架构上,本研究直接基于残差向量量化(RVQ)token 进行建模。发声器采用分层预测方案:骨干网络接收当前帧的聚合码本特征,通过线性头预测第 0 个码本,随后多 token 预测(MTP)模块生成所有残差码本。该策略使模型能学习声学细节的完整表征,提升语音表现力。
相应地,波形重建过程简化为轻量级因果卷积网络(Code2Wav),相比复杂的基于扩散 Transformer(DiT)的声码器,该网络大幅降低了推理延迟与计算量(FLOPs),同时实现了更优的音频保真度。
流式与并发优化设计
在流式音视频交互场景中,首包延迟是影响用户体验的关键因素,而模型的并发能力则是降低服务成本、提升响应速度的核心。本节将阐述 Qwen3-Omni 如何通过算法与架构优化,提升并发能力并降低首包延迟。
分块预填充与 MoE 架构
Qwen3-Omni 保留了 Qwen2.5-Omni 中的分块预填充机制(chunked-prefilling),其音频与视觉编码器可沿时间维度输出分块(chunk)。在实时交互过程中,思考器与发声器模块执行异步预填充:当思考器完成当前分块的预填充后,其输出的高层表征会立即用于异步预填充发声器的当前分块,同时思考器开始预填充下一个分块。这种方式显著降低了思考器与发声器的首 token 生成时间(Time-To-First-Token, TTFT)。
表 1:Qwen3-Omni-30B-A3B 的架构设计及音频 / 视频端到端首包延迟(单位:毫秒)

在架构上,Qwen3-Omni 的思考器与发声器均采用 MoE 设计,这对提升服务吞吐量极为有效。与密集型模型相比,MoE 架构大幅减少了处理长序列时键值缓存(KV cache)带来的输入输出(IO)消耗,从而提高生成过程中的 token 生成速率(tokens per second, TPS),增强并发能力。
流式多码本编解码器生成
为减少用户等待首包的时间,研究团队提出 “仅左上下文” 多码本生成机制。如图 2 所示,发声器生成第一个 token 后,MTP 模块会预测当前帧的剩余 token;随后,仅关注左上下文的流式多码本编解码器解码器,将这些 token 解码为波形。与 Qwen2.5-Omni 需等待发声器提供足够的块上下文(block-context)才能进行合成不同,Qwen3-Omni 在发声器生成每个 token 后即可立即输出波形,显著降低了首包延迟。
轻量级 MTP 模块与卷积网络
MTP 模块与编解码器解码器均为轻量级模块,计算量(FLOPs)低且支持批量推理,非常适合高并发场景:
- MTP 模块
超轻量级固定步长自回归密集型 Transformer,对推理硬件的内存带宽需求低,天然支持高吞吐量请求的高效批量处理。其固定步长自回归推理机制,可利用固定的 KV 缓存内存空间加速,实现低推理延迟;
- 卷积网络基编解码器
卷积架构在各类推理平台上均能获得良好的硬件加速支持,且支持高效批量推理,因此也实现了高吞吐量与低延迟。
表 2 展示了 Qwen3-Omni 在典型计算资源下、不同并发场景中的理论首包延迟。实验基于 vLLM 框架(Kwon et al., 2023)处理并发音视频流,并通过 torch.compile 与 CUDA Graph 加速对 MTP 模块与编解码器解码器进行优化。
表 2:Qwen3-Omni 在不同并发量下的理论首包延迟

影响总首包延迟的因素主要有两点:一是思考器与发声器的模型规模,这会影响其尾包预处理延迟(音频与视觉编码器的多模态数据预处理及推理)与首 token 生成时间(TTPT);二是 MTP 模块与编解码器解码器的架构及规模,这会影响其推理延迟。由于这些组件存在顺序依赖关系,总首包延迟为各组件延迟之和。
实验结果表明,思考器与发声器的 MoE 架构确保了高并发下其预填充延迟与 TTPT 基本不受影响;同时,MTP 模块与编解码器解码器的轻量级设计将计算开销降至最低,对首包延迟的影响较小。此外,在输出首包并启动流式音频合成后,发声器的 12.5 Hz token 率意味着生成 80 毫秒音频仅需 1 个 token。因此,生成实时因子(Generation Real Time Factor, RTF)的计算方式为:(思考器与发声器生成 1 个 token 的时间 + MTP 模块与编解码器解码器每 token 处理时间)之和除以 80 毫秒。实验显示,在不同并发水平下,RTF 始终低于 1,确保用户能持续接收流式音频响应。
表 3:Qwen3-Omni-30B-A3B 支持的语言及方言

预训练
Qwen3-Omni 的预训练数据集涵盖多种语言、方言及模态(如表 3 所示),包括图文对、视频 - 文本对、音频 - 文本对、视频 - 音频对、视频 - 音频 - 文本对及纯文本语料。与 Qwen2.5-Omni 为每个任务使用单一提示不同,本研究采用更多样的自然语言提示,以同时提升模型的泛化能力与指令遵循能力。
为实现各模态的稳健性能,训练策略从预训练早期阶段就融入单模态与跨模态数据。
Qwen3-Omni 的预训练分为三个阶段:
- 编码器对齐阶段(S1)
预训练初期,Qwen3-Omni 的 LLM 组件以 Qwen3 的参数初始化,视觉编码器源自 Qwen3-VL,音频编码器以 AuT 初始化。两个编码器在固定的 LLM 上分别训练,初期均先训练各自的适配器(adapter),再训练编码器本身。研究团队摒弃了 Bai et al. (2025)、Xu et al. (2025) 中 “固定 LLM 同时联合训练编码器与适配器” 的阶段,因为该方式可能导致编码器 “补偿” 固定 LLM 的局限性,进而降低感知能力;
- 通用阶段(S2)
第二阶段预训练使用规模约 2 万亿 token 的大规模数据集,各模态数据分布如下:文本 0.57 万亿 token、音频 0.77 万亿 token、图像 0.82 万亿 token、视频 0.05 万亿 token、视频 - 音频 0.05 万亿 token。此阶段引入更多样的多模态数据与任务,提升模型对听觉、视觉、文本及音视频信息的理解与交互能力;
- 长上下文阶段(S3)
预训练最后阶段,将最大 token 长度从 8192 提升至 32768,并增加训练数据中长音频与长视频的占比。实验结果表明,这些调整显著提升了模型对长序列数据的理解能力。
后训练
思考器(Thinker)
思考器的后训练分为三个阶段,旨在让 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML 格式,包含纯文本对话数据、视觉模态对话数据、音频模态对话数据及混合模态对话数据。
- 第一阶段:轻量级监督微调(SFT)
通过针对性的指令优化,弥合预训练表征与下游任务需求之间的差距。SFT 刻意偏离预训练数据格式,但保持与预训练模型的架构一致性,以实现高效知识迁移并保留预训练特征的完整性;
- 第二阶段:强到弱蒸馏(Strong-to-Weak Distillation)
采用 Qwen3 中描述的蒸馏流程,进一步提升模型性能,该流程包含两个主要阶段:
- 离策略蒸馏(Off-policy Distillation)
初期融合教师模型生成的输出进行响应蒸馏,帮助轻量级学生模型获取基础推理能力,为后续的在策略训练奠定基础;
- 在策略蒸馏(On-policy Distillation)
学生模型基于采样提示生成响应,利用这些在策略序列进行微调,通过最小化 KL 散度,使学生模型的预测对数概率(logits)与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)对齐;
- 离策略蒸馏(Off-policy Distillation)
- 第三阶段:分组序列策略优化(GSPO)
采用 GSPO 全面提升模型在文本、图像、视频、音频等多模态任务中的能力与稳定性。为对上述模态提供反馈,研究团队设计了两种奖励机制:
- 规则化奖励(Rule-based Reward)
针对数学计算、代码生成、指令遵循等可验证多模态任务,奖励信号源自预定义规则。设计良好的规则化奖励能高精度评估模型输出的正确性,避免 “奖励黑客”(reward hacking)问题;
- 模型化奖励(Model-based Reward)
对于缺乏客观预定义评估指标的多模态任务,采用 “LLM 作为评判者”(LLM-as-a-judge)方案。通用任务的自动评估由 Qwen3 完成,视觉相关任务则由专用视觉语言模型 Qwen2.5-VL 负责。若存在查询对应的真值或参考答案,会提供给 LLM 评判者,以确保评估更稳健、更具依据。
- 规则化奖励(Rule-based Reward)
发声器(Talker)
发声器的后训练分为四个阶段,使 Qwen3-Omni 能在生成文本的同时生成语音响应。所有训练数据均采用 ChatML 格式,确保与思考器的一致性。
- 第一阶段:多模态上下文语音训练
利用数亿条含多模态上下文的语音数据训练发声器,建立从多模态表征到语音的单调映射;
- 第二阶段:高质量数据持续预训练(CPT)与长上下文训练
通过高质量数据进行持续预训练,缓解第一阶段噪声数据导致的 “幻觉” 问题,显著提升生成语音质量;同时进行长上下文训练,增强发声器处理长复杂输入并生成上下文适配语音响应的能力;
- 第三阶段:多语言语音生成偏好优化
从多样的多语言语音样本中构建偏好对,采用直接偏好优化(DPO)对模型进行优化,提升多语言语音生成的泛化性与系统稳定性;
- 第四阶段:说话人微调
在上述基础模型上进行说话人微调,使发声器能模拟特定音色,同时优化语音响应的自然度、表现力与可控性。
描述生成器(Captioner)
描述生成(Captioning)是多模态理解的基础任务,对大型多模态模型的训练与评估至关重要。然而,当前绝大多数研究集中于视觉描述生成,严重忽视了音频模态。这一缺口亟待填补,因为听觉感知是人类感官体验与世界交互的关键组成部分。
为解决这一问题、推动多模态感知领域的全面研究,研究团队推出 Qwen3-Omni-30B-A3B-Captioner。该模型通过在大规模详细音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到,能为任意音频输入生成细节丰富且幻觉度低的描述文本。附录 9.2 提供了定性结果,展示该模型在不同声学场景下的描述生成能力。
评估
研究团队对一系列模型进行了全面评估,包括 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking,以及两个内部研发的变体模型 Qwen3-Omni-Flash-Instruct 和 Qwen3-Omni-Flash-Thinking。其中,“Flash” 系列模型旨在提升计算效率与性能有效性,并集成了新功能(尤其是对多种方言的支持)。评估结果分为 “理解任务(X→文本)” 与 “语音生成任务(X→语音)” 两大类。
X→文本任务评估
本部分评估 Qwen3-Omni 理解多种多模态输入(文本、音频、视觉、音视频)并生成文本响应的能力。
文本→文本任务
文本→文本任务的评估主要聚焦通用任务、推理能力、代码能力、对齐任务、智能体(Agent)及多语言任务,具体采用的基准测试如下:
- 通用任务
MMLU-Redux(Gema et al., 2024)、GPQA(Rein et al., 2023);
- 推理能力
AIME25(AIME, 2025)、ZebraLogic(Lin et al., 2025);
- 代码能力
MultiPL-E(Cassano et al., 2023);
- 对齐任务
IFEval(Zhou et al., 2023)、Creative Writing V3(Paech, 2024)、WritingBench(Wu et al., 2025b);
- 智能体任务
BFCL-v3(Yan et al., 2024);
- 多语言任务
MultiIF(He et al., 2024)、PolyMath(Wang et al., 2025c)。
音频→文本任务
音频→文本任务的评估分为基础音频任务与高级音频任务:
- 基础音频任务
自动语音识别(ASR)、语音转文本(S2TT)、音乐理解;
- 高级音频任务
语音对话(Voice Chatting)、音频推理(Audio Reasoning)。
具体基准测试选择如下:
- 音乐理解
采用 RUL-MuchoMusic(Zang et al., 2025)全面评估模型的音乐理解能力;
- 音频推理
采用 MMAU(Sakshi et al., 2024)、MMSU(Wang et al., 2025a);
- 语音对话
采用 VoiceBench(Chen et al., 2024b);
- 音乐信息检索
采用 GTZAN(Tzanetakis & Cook, 2002)、MTG-Jamendo 的四个子集(MTG, Bogdanov et al., 2019)、MagnaTagATune(Law et al., 2009),评估模型在音乐流派识别、情感与主题识别、乐器识别、音乐关键词标注等任务中的能力。GTZAN、MTG-Jamendo、MagnaTagATune 的评估集构成遵循 MARBLE(Yuan et al., 2023)的方案。
视觉→文本任务
视觉→文本任务的评估涵盖多种复杂任务,采用的基准测试如下:
- 通用视觉问答
MMStar(Chen et al., 2024a)、HallusionBench(Guan et al., 2024)、MM-MT-Bench(Agrawal et al., 2024);
- 数学与 STEM 推理
MathVista(Lu et al., 2024)、MathVision(Wang et al., 2024a)、MMMU(Yue et al., 2023)、MMMU-Pro(Yue et al., 2024);
- 文档理解
AI2D(Kembhavi et al., 2016)、ChartQA(Masry et al., 2022);
- 数值推理与计数
CountBench(Paiss et al., 2023);
- 长视频理解
Video-MME(Fu et al., 2024)、LVBench(Wang et al., 2024b)、MLVU(Zhou et al., 2025a)。
音视频→文本任务
为评估模型处理动态多模态信息的能力,研究团队首先在 WorldSense 基准测试上评估其性能 —— 该基准测试用于衡量视觉与听觉信号的整合能力,这是模型在复杂开放世界环境中运行的基础能力。随后,通过 DailyOmni、VideoHolmes 两项音视频推理基准测试,评估模型的高阶认知功能。
表 4:Qwen3-Omni-Instruct 与其他非推理基准模型的文本到文本(Text→Text)任务性能。最高分以粗体显示。

表 5:Qwen3-Omni-Thinking 与其他推理基准模型的文本到文本(Text→Text)任务性能。最高分以粗体显示。

文本→文本任务性能
研究团队将 Qwen3-Omni 与其他领先的大型语言模型(含推理型与指令型)进行对比。如表 4、表 5 所示,值得注意的是,尽管参数规模更小,Qwen3-Omni-30B-A3B-Instruct 在 GPQA、AIME25、ZebraLogic、WritingBench、PolyMath 等一系列基准测试中,性能超过了参数规模更大的开源模型 Qwen3-235B-A22B(非推理型)及性能强劲的闭源模型 GPT-4o-0327。同时,Qwen3-Omni-30B-A3B-Thinking 的性能与 Gemini-2.5-Flash-Thinking、Qwen3-235B-A22B(非推理型)相当。此外,Qwen3-Omni-30B-A3B 的文本能力与同系列纯文本模型(Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507)持平。
音频→文本任务性能
研究团队在 ASR、S2TT、语音对话、音频推理、音乐理解等基准测试中,将 Qwen3-Omni 与其他领先的专用模型及通用模型进行对比。为简洁起见,Qwen3-Omni-Thinking 模型在 ASR、S2TT 及音乐理解任务上的结果详见附录 9.1。
表 6:Qwen3-Omni-Instruct 与各基准模型在音频到文本(Audio→Text)任务(自动语音识别(ASR)与语音转文本(S2TT))中的转录性能。最高分以粗体显示。

如表 6 所示,Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test、MIR-1K(人声)等数据集上,实现了英中双语 ASR 与歌词 ASR 的当前最优性能;在多语言 ASR 与 S2TT 任务上,其性能与 Voxtral-Small、Gemini-2.5-Pro 等模型相当或更优。这些结果证明 Qwen3-Omni 在语音识别与语音翻译任务中表现出色。
表 7:Qwen3-Omni 与各基准模型在音频到文本(Audio→Text)任务中的语音交互及音频推理性能。最高分以粗体显示。

此外,在 VoiceBench(表 7)中,Qwen3-Omni-Thinking 的平均得分达 89.5,仅次于 Gemini-2.5-Pro(89.6),超过其他所有音频语言模型,彰显了该模型强大的语音交互能力。Qwen3-Omni 在音频推理任务中也表现亮眼:在 MMAU 基准测试中超过闭源强模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash;在 MMSU 基准测试中超过 Gemini-2.5-Flash 与 GPT-4o-Audio。这些结果充分证明 Qwen3-Omni 在通用音频理解与推理方面的强大能力。
表 8:Qwen3-Omni-Instruct 与各基准模型在音频到文本(Audio→Text)任务中的音乐理解性能。最高分以粗体显示。

在音乐理解任务中(表 8),研究团队将 Qwen3-Omni-Instruct 与通用音频语言模型及专用音乐模型进行对比。对于 MTG-Jamendo、MagnaTagATune 上的多标签分类任务,由于语言模型输出离散标签集,缺乏排序类指标(AP/AUROC)所需的校准后标签概率 / 得分,因此采用微 F1(micro F1)与基于 BERT 的音乐专用模型进行对比。结果显示,Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上实现当前最优性能;在 GTZAN、MTG-Jamendo、MagnaTagATune 上,其得分显著超过 Gemini-2.5-Pro、GPT-4o-Audio 等音频语言模型,以及在相应数据集上测试的自监督音乐专用模型。这些结果表明 Qwen3-Omni-Instruct 在各类音乐理解任务中均具备优越性能。
表 9:Qwen3-Omni-Instruct 与其他非推理基准模型的视觉到文本(Vision→Text)任务性能。最高分以粗体显示。

视觉→文本任务性能
为全面评估视觉→文本能力,研究团队将 Qwen3-Omni-Instruct 与 Qwen2.5-VL-72B 及其他性能优异的闭源视觉语言模型进行对比。如表 9 所示,Qwen3-Omni-Instruct 与 Qwen2.5-VL-72B 性能相当,且在 MMMU-Pro(整体)、MathVista(迷你版)、MathVision(完整版)等数学与 STEM 相关任务上,得分超过 GPT-4o、Gemini-2.0-Flash 等其他视觉语言模型。这些结果证明 Qwen3-Omni 在图像理解与推理任务中表现出色。
表 10:Qwen3-Omni-Thinking 与其他推理基准模型的视觉到文本(Vision→Text)任务性能。最高分以粗体显示。

研究团队还将 Qwen3-Omni-Thinking 与多个当前最优推理模型进行对比,结果如表 10 所示。例如,在数学与 STEM 基准测试中,Qwen3-Omni-Thinking 比 Qwen3-Omni-Instruct 基准模型高出 4.4 分;值得注意的是,Qwen3-Omni-30B-A3B-Thinking 模型的性能与参数规模大得多的基准模型相当,彰显了其在有效性与计算效率之间的出色平衡。当前模型的局限性在于长视频基准测试性能欠佳,这源于两个架构约束:位置外推能力有限、上下文长度受限,解决这些约束是未来工作的关键目标。
表 11:Qwen3-Omni-Instruct 与其他非推理基准模型的音视频到文本(AudioVisual→Text)任务性能。最高分以粗体显示。

表 12:Qwen3-Omni-30B-A3B-Thinking 与其他推理基准模型的音视频到文本(AudioVisual→Text)任务性能。最高分以粗体显示。

音视频→文本任务性能
如表 11 所示,实验结果验证了 Qwen3-Omni 在各类音视频任务中的有效性。在通用理解任务中,Qwen3-Omni-Instruct 在 WorldSense 基准测试上实现当前最优性能,大幅超过其他 Omni 系列模型,证明其在基础多模态整合方面的有效性。此外,如表 12 所示,模型在复杂推理任务(尤其是需对关联音频与视觉信息进行推理的基准测试)中性能显著提升。这些结果共同表明,Qwen3-Omni 在现实场景的高级感知与推理任务中具有巨大潜力。
X→语音任务评估
本部分评估 Qwen3-Omni 的语音生成能力。由于相关评估基准较少,语音生成评估主要围绕 “文本驱动语音生成”(与文本转语音 TTS 类似),聚焦以下三个方面:
- 零样本语音生成
在 SEED 数据集(Anastassiou et al., 2024)上,评估模型零样本语音生成的内容一致性(以 WER 衡量)与说话人相似度(以 SIM 衡量);
- 多语言语音生成
在 MiniMax 多语言测试集(Zhang et al., 2025)上,评估模型零样本多语言语音生成的内容一致性与说话人相似度;
- 跨语言语音生成
在 CV3-Eval 数据集(Du et al., 2025)上,评估模型零样本跨语言语音生成的内容一致性。
零样本语音生成评估
研究团队将 Qwen3-Omni 与当前最优零样本 TTS 系统进行对比。如表 13 所示,Qwen3-Omni 表现出极强的竞争力,彰显了通过预训练与持续预训练培养的强大语音理解与生成能力。此外,通过强化学习(RL)优化,Qwen3-Omni 的生成稳定性显著提升,在 test-en 测试集上实现最优性能。
表 13:在 Seed-TTS 测试集上的零样本语音生成性能。最高分以粗体显示。

多语言语音生成评估
Qwen3-Omni 支持 10 种语言的语音生成。研究团队在多语言语音生成任务中,将其与 MiniMax-Speech、ElevenLabs Multilingual v2 模型进行对比。如表 14 所示,Qwen3-Omni 在中文、英文、法文等语言上显著超过这些模型,在其他语言上也表现出竞争力。这些结果表明,Qwen3-Omni 在所有评估语言中,均能生成稳定性一致且接近人类音色的克隆语音。
表 14:在 MiniMax 多语言测试集上的多语言语音生成性能。最高分以粗体显示。

跨语言语音生成评估
Qwen3-Omni 不仅支持多语言语音克隆,还支持跨语言语音克隆。研究团队在跨语言语音生成任务中,将其与 CosyVoice2、CosyVoice3 进行对比。如表 15 所示,在 “任意语言到英文”(any-to-en)、“任意语言到韩文”(any-to-ko)的语音克隆任务中,Qwen3-Omni 性能超过 CosyVoice3;值得注意的是,在 “任意语言到日文”(any-to-ja)任务中,尽管 CosyVoice3 将所有日文字符转换为语音假名(phonetic kana),但 Qwen3-Omni 无需文本归一化即可实现与 CosyVoice3 相当的性能。这些结果彰显了 Qwen3-Omni 在跨语言语音生成方面的优势,证明其在不同语言环境中的适应性。
表 15:在 CosyVoice3 跨语言测试集上的跨语言语音生成性能。最高分以粗体显示。

多模态无性能下降评估
不同模态具有异质性,需采用不同的预训练目标与优化方法,因此难以实现标准化的数据整合方法。为确保评估的公平性与严谨性,研究团队设计了对照比较实验:训练三个参数规模匹配的模型 —— 纯文本基准模型、纯视觉基准模型、多模态 “Omni” 模型。为隔离多模态的影响,所有干扰变量均严格控制:Omni 模型与单模态基准模型使用相同的文本 / 视觉语料训练;所有模型的关键训练参数(学习率调度、批大小、各模态有效训练轮次,通过调整数据采样比例归一化)保持一致。因此,实验中唯一的差异变量是 Omni 模型在预训练阶段额外融入了音频与音视频数据。
表 16:本研究对比了 Qwen 系列中同期发布、规模相同的 30A3 版本模型的性能。为确保实验严谨性,所有模型均按照相同的训练计划进行训练,各模型在其对应模态上使用完全一致的数据集,且训练计算量(FLOPs,浮点运算次数)完全匹配。

表 16 展示了评估结果,研究团队采用涵盖多种模态的综合基准测试,包括文本模态(通用任务、数学与 STEM 任务、代码任务、多语言任务)、视觉模态(大学水平问题、OCR 相关任务)、视频模态(视频理解任务)。实验结果不仅表明,在文本预训练早期融合单模态与跨模态数据,可实现所有模态性能的提升;还证明多模态联合训练能促进不同模态间的相互增强,进而提升单模态性能。这充分彰显了 Qwen3-Omni 在各类评估标准下的通用性与稳健性。
由于实验成本过高,研究团队无法对所有模型规模进行全面测试。但基于表 16 及内部实验,可得出以下结论:
-
预训练阶段早期融入多模态,可使语言模型在与视觉或音频协同训练时,语言能力无任何下降;
-
文本模态的融入显著提升视觉与音频模态的性能,但视觉或音频信号的加入未观察到对语言能力的显著提升;
-
实证表明,加入音频数据可持续提升模型在 MMMU 基准测试与 OCR 相关任务中的视觉性能。
结论
本文介绍了 Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-Flash-Instruct、Qwen3-Omni-Flash-Thinking 四款模型。其中,Qwen3-Omni-30B-A3B 在文本与视觉基准测试中,性能达到或超过 Qwen 系列最新的同规模单模态模型;尤其在音频处理与对话基准测试中,该模型在 32 项基准测试中取得开源领域最优性能,且与 Gemini-2.5-Pro 等强大闭源模型相当或更优。Qwen3-Omni-30B-A3B-Thinking 变体在文本、视觉、音视频推理等复杂任务中进一步提升了性能。
除精度外,该模型还具备以下特性:支持 119 种文本语言、19 种语音识别语言与 10 种语音生成语言;支持长达 40 分钟的音频理解与交互会话;得益于流式架构与多码本设计,30B-A3B 规模的 Qwen3-Omni 端到端首包延迟仍可低至 234 毫秒。
研究领域的发展常在 “专业化” 与 “一体化” 之间循环。在此背景下,Qwen3-Omni 堪称一座里程碑:据研究团队所知,该模型首次证明,完全一体化的端到端多模态训练可在不降低核心语言能力及其他模态性能的前提下实现。研究团队期待与学术界分享这些成果,希望能推动相关领域的进一步研究。
在实际应用中,Qwen3-Omni-30B-A3B 具备以下优势:强大的文本与视觉能力、稳健可靠的 ASR、支持超过 20 种语言的交互式语音功能、面向交互场景的超低首包延迟,以及稳定自然的语音合成。更重要的是,相较于级联流水线(cascaded pipelines),该模型具有更强的跨模态推理能力、更低的端到端延迟、更简洁的系统架构与更低的成本。
未来工作将从多个方向推进模型发展,包括多说话人 ASR、视频 OCR、音视频主动学习,以及增强对智能体工作流(agent-based workflows)与函数调用的支持。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)