9月24日,在2025杭州云栖大会上,阿里一口气发布了7款大模型,其中重磅推出的通义万相Wan2.5-preview,首次实现音画一体视频生成等功能,成为阿里迄今为止最强的全模态视觉生成大模型。

阿里云智能集团首席技术官、通义实验室负责人周靖人在会上谈道,通义万相Wan2.5-preview视频生成模型首次采用原生多模态架构,涵盖文生视频、图生视频、文生图和图像编辑四大模型,迈入电影级全感官叙事时代。

第一时间对该模型进行体验,发现Wan2.5-preview具备超出想象的文本理解和推理能力,并且生成的语音能够精准匹配人物嘴型。

比如,下面这个有声视频是仅输入一段文字后Wan2.5-preview一次性生成的。不得不说,国产视频生成模型真的已经是Next level了。

▲Wan2.5-preview生成的视频

当下,市面上同类模型已有一些支持“图+音频”驱动生成视频,Wan2.5-preview在输入侧全面支持图、文、音或组合形式,有望降低使用门槛,在数字人、电影创作、远程教育等多个领域都有想象空间。

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭说,**大模型将是下一代的操作系统。**而随着计划中的世界模型在之后面世,通义万相也有望成为AI视频领域的操作系统,将允许任何人用自然语言,创造无限多的视频内容及相关应用。

即日起,用户可在阿里云百炼平台调用API,或在通义万相官网直接体验。

通义万相官网体验地址:

https://tongyi.aliyun.com/wanxiang/generate

阿里云百炼API:

https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

一、首次实现高清有声视频一键生成

背后原生多模态架构亮了

本次,Wan2.5-Preview全面提升了视频生成、图像生成、图像编辑三大核心能力,并且首次原生支持音画同步。

聚焦大家尤为关注的视频生成方面,Wan2.5-preview在时长、画质、操控、多模态等多个方面都实现显著升级:

1、更长时长。Wan2.5-Preview视频生成时长从5秒提升至10秒,单次生成可实现更完整的剧情故事。

2、更清晰画质。Wan2.5-Preview支持24帧每秒的1080P高清视频生成,满足电影级场景的创作需求。

3、更强操控。Wan2.5-Preview模型指令遵循能力进一步提升,视频生成可理解运镜等复杂指令,可实现一键人物变身等图像编辑任务。

4、音画同步生成。Wan2.5-Preview支持文本、图像、视频、音频几乎全模态的输入和输出,视频生成告别“哑剧”时代。

背后,靖人透露,Wan2.5-Preview在技术架构上实现了重大更新——首次采用原生多模态架构——在国内第一个将声音、图像、文本作为语料去做模型训练,从而实现同一套框架下支持理解和生成等多种任务。

这代表了技术演进的一个更高阶段。相比于非原生架构带来的信息损耗、误差累计、多模交互弱等局限,原生多模态架构如同精通多学科的“通才”,能够涌现出更强的跨模态推理及生成能力。

比如,基于原生多模态架构的Wan2.5-Preview能够实现更具创造性的生成,更深刻地理解抽象语义并将其转化为视觉元素,其可以根据一段复杂的、充满比喻的诗歌,生成一幅意境匹配的图片。

在图像生成方面,Wan2.5-Preview在美学质感、稳定文字生成、图表直接生成、指令遵循等方面全面升级;此外,该模型在图像编辑能力上,还支持丰富指令编辑任务,可以保持视觉元素ID一致性。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

二、音画同步、复杂运镜效果惊艳

谷歌Veo 3不香了?

再来看看具体案例效果,用户只需要在对话框中输入提示词,Wan2.5-preview就能生成对应的画面,并生成精准匹配的人声、环境音效和背景音乐等多种声音。

同时,Wan2.5-preview也支持输入一段音频作为参考,来驱动文字或图片生成音画同步的视频。此外,Wan2.5-preview在图片编辑、文生图体验上也更加稳定。

从以下比较有代表性的案例,我们能直观看到Wan2.5-Preview的生成效果。

1、从电影情节到产品播报,生成人声精准匹配视频

如下所示,当输入以下一个围绕“白人女性拆开礼物”的提示词,Wan2.5-Preview就能生成以下栩栩如生的视频,不仅光影和人物的表情细节非常逼真,提示词要求的钢琴声和女声也比较准确。

提示词1:

暖色调,日光,柔光,侧光,来自窗户的自然光线,近景特写镜头,中心构图。一位年轻的外国白人女性坐在客厅地毯上,浅棕色长发垂肩,脸上带着温暖微笑,眼神明亮,双手正缓缓打开一个带有白色圆点图案的深棕色礼物盒。她的动作轻柔,指尖微微颤动,流露出期待与惊喜。盒子开启瞬间,内部闪出微弱反光,映在她的眼眸中。背景中一棵高大的圣诞树装饰着彩色小灯、金色铃铛和红色丝带,树下堆满包装精美的礼物盒,壁炉上方悬挂着编织花环,窗帘半开,透入清晨柔和日光。伴随轻微的纸张摩擦声和远处隐约传来的钢琴版《Jingle Bells》旋律,她轻声说道:“Oh, this is perfect… thank you so much.” 室内环境音包含木柴燃烧的噼啪声与窗外轻柔风声。

再来看看更复杂的多人物互动,当输入围绕“新郎向新娘求婚”的提示词,Wan2.5-Preview也能比较精准地生成婚礼情境和两人的互动,具有大片般美感,且婚礼进行曲和新郎的话匹配较为准确。

提示词2:

纪实摄影风格,中景,日光,柔光,侧光,暖色调,中心构图。镜头平拍一位外国新郎的半身,他身穿剪裁合体的黑色西装,打着深色领带,胸前别着一朵鲜艳的红色玫瑰胸花。他约三十岁,浅棕色短发整齐梳理,蓝色眼眸含笑,嘴角上扬,露出温柔而真挚的笑容。他正缓缓将一枚戒指套入新娘的手指,动作轻柔专注。新娘的手纤细白皙,戴着蕾丝手套,指尖微微颤动,头纱由微风轻轻掀起一角,薄纱随气流飘动。背景为白色石墙,墙上装饰着藤蔓绿植与白色玫瑰花束,阳光从左侧窗户斜射入内,形成柔和的侧光光影,照亮两人交握的手与脸庞。伴随着婚礼进行曲的轻柔小提琴旋律,新郎低声说道:“I now pronounce you my forever.” 背景可听见远处宾客的轻微低语与鸟鸣声。

Wan2.5-Preview同样支持以“图+音+文”为输入进行视频生成,这样提示词文本可以写得更简洁一点。如下所示,即使是极快语速的Rap,Wan2.5-Preview也能将人的口型和声音匹配得看不出破绽。

提示词3:

在一个充满未来感的虚拟现实游戏世界,一位玩家戴着VR头盔和动作捕捉服,站在一个巨大的、由代码和像素流构成的竞技场中央。他以极快的语速念出这段RAP:“万相出手就是未来代码,声波穿透屏幕像魔法,音画同步从来不跳闸,节奏踩着像素坐标,精准指令像开外挂”。电影感光线,超高细节。音频部分只有由rap构成。

输入“图+文”提示词也是常见的场景,如下所示,Wan2.5-Preview能够凭借强大的多模态推理能力,创作出图片中原本没有的虎鲨背鳍,并生成深海低频嗡鸣、声呐扫描音、水流动响等多种逼真的声音。

提示词4:

一名身穿黑色潜水服、佩戴全脸面罩的男性特工在水下缓慢下潜,右手拇指持续按压BC阀。他身体略微前倾,头部随手电光束方向转动,光束扫过前方,显现出尸骸碎骨,骨骼在水流中轻微晃动。声呐绿波以每秒2米的速度从远处向近处推进,穿过水体并产生涟漪状扰动。虎鲨背鳍从画面上方切入光柱,垂直向下移动后消失。特工嘴唇开合,说出:‘太危险了’,语气紧绷克制,语速短促,音色因氦氧混合气震颤泛出金属质感。4℃海水使气泡迅速压缩变形,呈扁平状上升并破裂。背景持续传来深海低频嗡鸣、声呐扫描音、水流动响、气泡爆裂声及呼吸器震颤声。

2、从跑马到拍击网球,模拟真实世界的音效为视频增色

真实世界的声音赋予视频更强的冲击力。除了人声匹配精准,Wan2.5-Preview能够在视频中生成贴合场景的音效。

如下所示,当围绕“骑士骑马运动”输入一段提示词,Wan2.5-Preview不仅能够生成极具动感和运镜效果的视频内容,将马匹和运动员的腾空瞬间精准捕捉,且所提出的马蹄落地声、远处裁判哨音与微弱风声也能够明显听到。

提示词1:

纪实体育摄影风格,中景运动镜头,日光,晴天光,侧光,暖色调,中心构图。一位年轻男性现代五项运动员身着笔挺的白色骑士服,佩戴黑色头盔,骑在一匹肌肉紧实的棕色骏马上,在户外草地上全力冲刺。马儿前跃至空中最高点,四蹄离地,后腿蹬直,前腿高抬,跨越一道木质障碍栏杆,动作流畅有力。运动员身体前倾,缰绳紧握,目光专注前方,姿态稳定。背景为广袤绿草地,蓝色天空飘着薄云,远处树木随风轻晃,阳光从侧面斜照,勾勒出人马轮廓的明亮边缘。伴随清脆的马蹄落地声、远处裁判哨音与微弱风声,镜头全程跟拍,完整记录腾空瞬间。4K高清画质,动作清晰连贯。

下面的例子是围绕“女子打网球”输入的提示词,网球撞击球网的声音、远处隐约的观众低语让人很难相信这是AI生成的。

提示词2:

平拍中景,日光,晴天光,侧光,暖色调,中心构图。一位白人女子身着简洁的白色网球服,颈部佩戴一条细长的银色项链,耳垂上闪烁着小巧的钻石耳环,深棕色头发高高扎成马尾,发丝随动作轻扬。她双手紧握网球拍,身体前倾,膝盖微屈,右臂迅速向后引拍,随即向前上方猛烈挥动,球拍击中黄色网球瞬间,发出清脆的“砰”声,球以高速飞向画外。她的面部肌肉紧绷,眼神锁定球路,嘴角微微下压,展现出专注神情。背景为浅蓝色幕布,其上印有白色英文字母“CHAMPION SERIES”,边缘略微虚化。天空呈现均匀的湛蓝,无云,阳光从右侧斜射,在地面投出清晰影子。伴随击球节奏,可听见球拍破风声、球与拍面撞击声及远处隐约的观众低语。

3、深度理解描述意境,生成高匹配度背景音乐

生成背景音乐也是我们日常创作常见的场景,如下所示,当输入以下围绕“为跳舞的黑人女子配上背景音”的提示词,Wan2.5-Preview能够成功生成节奏鲜明的背景乐,深度理解了这一嘻哈的场景风格。

提示词1:

纪实摄影风格,自然光,晴天日光从侧上方洒落,暖色调,全景,中心构图,平拍镜头。画面中,一位身材高挑的外国黑人女性站在城市街道中央跳舞,她约三十岁,皮肤黝黑,笑容灿烂,牙齿洁白,编成数十条细密辫子的黑发随动作轻轻摆动。她身穿亮紫色宽松短袖上衣和黑色高腰短裤,脚踩白色运动鞋,双臂向上伸展后缓缓划弧, hips左右轻摇,脚步在地面踏出节奏感强烈的律动,仿佛正随着街头播放的节拍起舞。镜头缓缓后拉,展现她周围环境:宽阔的沥青街道两旁矗立着玻璃幕墙的现代建筑,银灰色路灯笔直延伸,行人穿行其间,有的驻足观看,有的边走边点头打拍子,背景传来轻快的嘻哈音乐节奏。紧接着,镜头切换至另一位外国黑人男性舞者,同样全景平拍,他约三十五岁,戴黑色细框眼镜,穿着浅灰色修身衬衫和黑色长裤,领口微开,神情专注,正在以流畅的身体波浪动作配合脚步滑行。他左手轻抬引导动势,右腿后撤点地,肩部与手臂逐节起伏,展现出极强的控制力。背景音为节奏鲜明的鼓点与贝斯旋律,夹杂着远处车辆驶过的声音、人群低语声和偶尔的掌声。

总的来看,Wan2.5-preview在此前Wan2.2的基础上,不仅提升了视觉生成的视觉质量和运动效果,还将声音这一新的维度融合进来,让视频与音频生成能够一步到位,实现较精准匹配。

我们也发现,要用Wan2.5-preview生成更加符合需求的视频,还需要将提示词描述得更加详细和准确,这样生成的内容才会更加精准。同时,当生成时长、清晰度需求提升,需要等待的时间也变长,有时生成的视频也会出现漏信息、少声音的情况,这都表明模型仍有进步空间。

三、结语: 通义万相

阿里被低估的AI杀手锏

时至今日,通义万相可能是最被低估的阿里大模型。

在大语言模型和视觉大模型模型这两条路线上,阿里的通义千问系列大语言模型已经占据全球开源大模型的头把交椅,通义万相视觉模型也正迅猛发展,在视觉多模态这一更具挑战的领域高歌猛进,祭出全模态模型、世界模型(待发布)等一个又一个顶尖成果。

随着2023年OpenAI的Sora在全球爆火,阿里通义万相大模型成为“国产Sora”的代表。2025年2月,通义万相Wan2.1正式开源,这款性能赶超Sora的大模型由此可以被全球各地的人下载使用;今年5月,通义万相Wan2.2开源,业界首个使用MoE架构,节省近一半计算资源的情况下达到电影级视频生成效果。

如今,最新发布的通义万相Wan2.5-preview已经实现了音画文全模态交互,向一个“大一统”的模型又进了一步。

量变正引起质变。阿里公布的一组官方数据显示:通义万相模型家族已支持文生图、文生视频、图生视频、人声生视频和动作生成等10多种视觉创作能力,累计生成3.9亿张图片、7000万个视频,成为中国调用量最大的视觉生成模型之一。

更重要的是开源领域的开花结果。自今年2月以来,通义万相已连续开源20多款模型,在开源社区和三方平台的下载量已超3000万,是开源社区最受欢迎的视频生成模型之一。

下一步,随着通义万相世界模型的面世,阿里大模型的版图将再升一个维度,势必在产业掀起新的技术潮流。

四、如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐