阿里通义万相Wan2.1首推开源首尾帧视频模型:5秒丝滑转场实测,表情包“活“了
2025年4月19日,在GitHub已斩获万余星标的阿里通义万相Wan2.1再添重磅功能——业界首个百亿参数规模的开源首尾帧视频模型正式亮相。该模型基于Wan2.1文生视频14B大模型开发,用户仅需上传首尾两张图片,即可生成5秒720P高清视频,且能根据画面内容自动调整镜头角度与光影效果。目前普通用户可通过通义万相官网直接体验,开发者则可通过Gitcode、Hugging Face及魔搭社区获取开
阿里通义万相Wan2.1首推开源首尾帧视频模型:5秒丝滑转场实测,表情包"活"了
【免费下载链接】Wan2.1-FLF2V-14B-720P 项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-FLF2V-14B-720P
2025年4月19日,在GitHub已斩获万余星标的阿里通义万相Wan2.1再添重磅功能——业界首个百亿参数规模的开源首尾帧视频模型正式亮相。该模型基于Wan2.1文生视频14B大模型开发,用户仅需上传首尾两张图片,即可生成5秒720P高清视频,且能根据画面内容自动调整镜头角度与光影效果。目前普通用户可通过通义万相官网直接体验,开发者则可通过Gitcode、Hugging Face及魔搭社区获取开源资源。
从表情包到写实影像:实测四大核心能力
进入通义万相官网视频生成模块,开启首尾帧功能后,我们首先对网络流行的"文艺复兴"表情包进行了"复活"测试。当输入两张表情张力强烈的静态图片时,模型生成的视频不仅实现了丝滑转场,更在人物发丝飘动、服装纹理等细节处保持了高度一致性,避免了AI生成常见的"帧间跳变"问题。而当测试两张风格迥异的表情包时,系统自动触发的"PPT式转场"效果,意外呈现出诙谐的视觉反差,引发测试团队会心一笑。
在创意合理性测试中,自然生长类场景展现了模型强大的细节捕捉能力。以"牡丹花绽放"为主题,首帧图片中隐藏的蛛网在花朵舒展过程中被自然牵动,整个生长时序符合植物生理特性,达到"肉眼难辨AI"的写实水准。人物光影控制测试更凸显技术突破:当给定"金发男孩侧脸由明转暗"的提示词时,视频结尾处阴影在面部的渐变过程与真实摄影效果无异,验证了模型对复杂光照变化的计算精度。
技术解析:双分支控制架构实现帧间协同
官方技术报告显示,该模型创新采用"双分支条件控制"架构:将首尾帧与零填充中间帧构成控制序列,通过扩散变换模型(DiT)进行特征融合,同时引入CLIP语义特征交叉注意力机制,确保画面主体在运动过程中的时空连贯性。这种设计使模型能同时处理镜头位移、物体形变等复杂场景,如测试中"毒液变身"特效虽采用闪光转场规避极端形变,但人物服装材质的光影变化仍保持物理一致性。
开发者生态方面,魔搭社区已在DiffSynth-Studio项目中完成集成,支持动态显存分配功能。实测数据显示:生成81帧960×960分辨率视频时,若关闭常驻参数限制需46G显存,启用4×10⁹参数控制则可降至24G,但推理时间会增加约30%。目前Gitcode仓库提供完整推理代码,开发者可通过调整采样步数平衡生成速度与画质。
行业价值与未来展望
作为首个开源的百亿级首尾帧视频模型,Wan2.1不仅降低了专业视频制作门槛,更为AIGC创作者提供了新的表达工具。从营销素材快速生成到教育内容动态演示,该技术有望在电商、文旅等领域催生轻量化视频生产范式。值得关注的是,当前模型在10秒以上视频生成时仍存在时序断裂风险,官方表示下一代版本将重点优化长视频连贯性,并探索文本-图像-视频的多模态协同创作能力。
普通用户可通过通义万相官网(https://tongyi.aliyun.com/wanxiang/videoCreation)免费体验基础功能,开发者可访问Gitcode仓库(https://gitcode.com/hf_mirrors/Wan-AI/Wan2.1-FLF2V-14B-720P)获取模型权重与技术文档。随着开源生态的完善,首尾帧视频生成技术或将成为内容创作领域的新基建,推动AI视频从"能生成"向"好用、易用"加速演进。
【免费下载链接】Wan2.1-FLF2V-14B-720P 项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-FLF2V-14B-720P
更多推荐
所有评论(0)