手机上实现AI视频实时生成，DiT模型上移动端

提出了一套专为加速视频扩散变换器（DiT）以适配移动端部署的综合优化流程，融合了三项关键策略：首先是高压缩率的视频变分自编码器（VAE），通过在压缩比和生成质量之间权衡，有效减少潜在表示的 token 数量以加快推理速度；此外，与同样采用 4 步蒸馏的 T2V-Turbo 和 AnimateLCM 相比，我们的模型在体积减少超过 50% 的同时，仍实现了更优的性能表现。此外，还提出了一种对抗性步骤

AI生成曾小健

892人浏览 · 2025-07-22 10:40:36

AI生成曾小健 · 2025-07-22 10:40:36 发布

手机上实现AI视频实时生成，DiT模型上移动端

原创弹贝斯的鱼带你学AI 2025年07月20日 13:23 广东

扩散变换器在视频生成任务中展现了强大的性能，但其高昂的计算成本使其在资源受限的设备（如智能手机）上难以实用，实时生成更是一个巨大挑战。因此，Snap提出了一系列创新优化方法，显著加速视频生成过程，使其在移动平台上实现实时性能。模型能够在 iPhone 16 Pro Max 上实现每秒超过 10 帧（生成 49 帧仅需 4 秒）的生成速度，展示了在移动设备上进行实时高质量视频生成的可行性。（链接在文章底部）

尽管取得了这些进展，但仍存在一些局限性。首先，由于潜空间的高度压缩以及 DiT 模型的剪枝，可能在快速运动或复杂纹理的场景中出现细节退化的情况。其次，由于实际条件的限制，大多数最先进的视频扩散模型（VDMs），包括自有的模型，均是在内部收集的视频数据集上训练的，这些数据集无法完全公开或发布。因此，直接比较的结果可能并不完全公平或可复现。

，时长00:14

01 技术原理

—

提出了一套专为加速视频扩散变换器（DiT）以适配移动端部署的综合优化流程，融合了三项关键策略：首先是高压缩率的视频变分自编码器（VAE），通过在压缩比和生成质量之间权衡，有效减少潜在表示的 token 数量以加快推理速度；其次是高效的移动端 DiT 架构，从一个大型预训练超网络出发，结合敏感性感知的三级剪枝与知识蒸馏策略，压缩模型结构至 9.15 亿参数，同时保持输出质量，适配如 iPhone 16 Pro Max 等设备。

Overview of our method

此外，还提出了一种对抗性步骤蒸馏方法，使模型在仅需少量推理步骤的情况下，依然保持与全步骤扩散模型相近的生成质量，极大降低了计算成本。通过这三项优化的协同作用，成功实现了在移动设备上进行高质量、实时视频生成的目标。

，时长00:05

我们的模型始终能够生成高质量的视频帧以及平滑的物体运动。为展示模型在文本生成视频任务中的通用能力，展示了多种生成示例，包括人物、动物、写实风格以及艺术风格的场景。

，时长00:20

尽管我们的模型体积小巧，专为移动端的快速推理设计，但其综合评分仍高于多种最新方法，包括基于 DiT 的 OpenSora-V1.2、CogVideoX-2B，以及基于 UNet 的 VideoCrafter-2.0。此外，与同样采用 4 步蒸馏的 T2V-Turbo 和 AnimateLCM 相比，我们的模型在体积减少超过 50% 的同时，仍实现了更优的性能表现。

https://arxiv.org/pdf/2507.13343

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla