前几天ai圈子

各大公司纷纷放出自己的狠活

就在12月11日

阿里团队发布 Qwen3-Omni-Flash 全模态大模型

图片

想象一下,你拿着手机,对着屏幕随意聊天:上传一段视频,它能实时分析画面、听懂你的语音指令,甚至边看边生成自然流利的语音回应;或者多轮对话中,你突然打断它,它立刻切换思路,继续接茬;长达30分钟的音频,它也能一次性听懂、总结要点。

图片

AI终究是可以实时分析视频了

作为Qwen3-Omni系列的“Flash”高效变体,它更注重实时性和计算优化,主要通过阿里云DashScope API和通义千问平台(chat.qwen.ai)提供体验。

图片

你可以直接上传视频,让它实时生成旁白;或者开启语音视频聊天模式,感受那种“面对面”般的沉浸感。基础的Qwen3-Omni已在2025年9月开源(Hugging Face上有30B-A3B规模权重),而Flash版则更侧重云端高效部署,适合语音助手、视频分析、多语言实时翻译、虚拟伴侣等场景。

图片

官网中已经可以与大模型视频、语音通话

Qwen3-Omni-Flash 的功能与特点

 01

更自然、智能的“伙伴”

Qwen3-Omni-Flash-2025-12-01是在Qwen3-Omni基础上进行全面升级的版本

图片

采用可爱的小熊卡通形象将内容分为四个象限,直观展现了该模型在多模态实时交互领域的核心优势:

强大的角色扮演能力,通过不同装扮的小熊形象能够基于系统提示保持生动和富有生命力的人格设定,成为个性化虚拟伴侣或专业助手;

其次就是多语言自然表达能力,以“苹果”在英语、德语和韩语中的翻译示例突出模型支持119种文本语言、19种语音识别语言以及10种语音合成语言,精准流畅;

第三是深度理解用户意图,无论用户通过文字输入、语音指令还是图像视频展示,模型都能准确跟随并智能回应,在MMLU-Pro、MMMU和MMAU等多模态基准测试中取得显著提升,柱状图清晰对比了新旧版本的性能进步;

语音生成能力高度拟人化,提供49种音色、10种语言和9种方言支持,语音节奏、停顿与韵律自适应都接近真人水平。

02

能力对比——全模态全面加强

下图是阿里官网给出的对比图

表格把测试分成文本、音频、语音生成、图像和视频五大类,把新版模型和旧版、其他Qwen模型以及GPT-4o、Gemini系列等主流对手放在一起对比

图片

文本能力部分(测试数学、逻辑、实时知识、代码、写作等):

新版在AIME25(美国数学级别难题)拿67.2分、ZebraLogic81.7分、LiveBench(最新实时知识问答)69.8分、LiveCodeBench(新鲜代码生成题)49.8分、MultiPL-E(多语言编程)83.7分、WritingBench(写作质量)85.2分,这些都明显高于旧版和大多数竞品,说明新版在数学推理、逻辑思考、代码编写和创意写作上更聪明、更全面。

图片

奥赛选手:也没人告诉我ai都能做竞赛题了啊

音频理解部分(测试语音识别、音乐分析、音频问答等):新版特别强势,比如VoiceBench-CommonEval(通用语音评估)94.2分、GTZAN(音乐类型分类)93.1分、MMAU(多模态音频理解)78.8分,都接近满分或大幅领先GPT-4o和Gemini,Fleurs-zh(中文语音识别误差)仅2.05(越低越好)、MIR-1K(人声分离)6.04,也远超对手,这意味着它听懂说话、音乐和复杂音频内容的能力大幅提升。

图片

用语音问数学题就可以轻松解答

语音生成部分(测试合成语音的自然度):新版在中英文Seed-test得分1.10/1.62、多语言MiniMax平均2.3621,明显优于对比模型。

图片

让李白回答垃圾分类的问题

图像理解部分(测试回答大学问题、数学图表等):新版MMMU74.0分、MMMU_pro(62.4分、MathVision_full60.5分,比旧版提升明显,也超过或追平GPT-4o和Gemini,显示它“看懂”复杂图片、图表和视觉推理的能力更强。

视频理解部分(测试长视频语义理解):新版MLVU得分77.1分,高于旧版75.5和其他列出模型,说明处理长视频内容、理解情节和细节更准确。

Qwen3-Omni-Flash 的实际应用案例

图片

图片

图片

最后,我们想问问大家你最想用Qwen3-Omni-Flash创造什么? 是一张梦想中的度假照片,还是一幅充满想象力的艺术作品?在评论区分享你的创意吧!

ALL IN ONE 通用智能(AGI)服务

图片

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐