手机上实现AI视频实时生成,DiT模型上移动端
提出了一套专为加速视频扩散变换器(DiT)以适配移动端部署的综合优化流程,融合了三项关键策略:首先是高压缩率的视频变分自编码器(VAE),通过在压缩比和生成质量之间权衡,有效减少潜在表示的 token 数量以加快推理速度;此外,与同样采用 4 步蒸馏的 T2V-Turbo 和 AnimateLCM 相比,我们的模型在体积减少超过 50% 的同时,仍实现了更优的性能表现。此外,还提出了一种对抗性步骤
手机上实现AI视频实时生成,DiT模型上移动端
原创 弹贝斯的鱼 带你学AI 2025年07月20日 13:23 广东
扩散变换器在视频生成任务中展现了强大的性能,但其高昂的计算成本使其在资源受限的设备(如智能手机)上难以实用,实时生成更是一个巨大挑战。因此,Snap提出了一系列创新优化方法,显著加速视频生成过程,使其在移动平台上实现实时性能。模型能够在 iPhone 16 Pro Max 上实现每秒超过 10 帧(生成 49 帧仅需 4 秒)的生成速度,展示了在移动设备上进行实时高质量视频生成的可行性。(链接在文章底部)
尽管取得了这些进展,但仍存在一些局限性。首先,由于潜空间的高度压缩以及 DiT 模型的剪枝,可能在快速运动或复杂纹理的场景中出现细节退化的情况。其次,由于实际条件的限制,大多数最先进的视频扩散模型(VDMs),包括自有的模型,均是在内部收集的视频数据集上训练的,这些数据集无法完全公开或发布。因此,直接比较的结果可能并不完全公平或可复现。
,时长00:14
01 技术原理
—
提出了一套专为加速视频扩散变换器(DiT)以适配移动端部署的综合优化流程,融合了三项关键策略:首先是高压缩率的视频变分自编码器(VAE),通过在压缩比和生成质量之间权衡,有效减少潜在表示的 token 数量以加快推理速度;其次是高效的移动端 DiT 架构,从一个大型预训练超网络出发,结合敏感性感知的三级剪枝与知识蒸馏策略,压缩模型结构至 9.15 亿参数,同时保持输出质量,适配如 iPhone 16 Pro Max 等设备。

此外,还提出了一种对抗性步骤蒸馏方法,使模型在仅需少量推理步骤的情况下,依然保持与全步骤扩散模型相近的生成质量,极大降低了计算成本。通过这三项优化的协同作用,成功实现了在移动设备上进行高质量、实时视频生成的目标。
,时长00:05
我们的模型始终能够生成高质量的视频帧以及平滑的物体运动。为展示模型在文本生成视频任务中的通用能力,展示了多种生成示例,包括人物、动物、写实风格以及艺术风格的场景。
,时长00:20
尽管我们的模型体积小巧,专为移动端的快速推理设计,但其综合评分仍高于多种最新方法,包括基于 DiT 的 OpenSora-V1.2、CogVideoX-2B,以及基于 UNet 的 VideoCrafter-2.0。此外,与同样采用 4 步蒸馏的 T2V-Turbo 和 AnimateLCM 相比,我们的模型在体积减少超过 50% 的同时,仍实现了更优的性能表现。
https://arxiv.org/pdf/2507.13343
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)