MAGI-1:大规模自回归视频生成
MAGI-1 是由开发的先进自回归视频生成模型。它通过自回归方式预测视频块序列来生成高质量视频。该模型经过训练,能够对视频块进行去噪,支持因果时间建模和流式生成。在图像到视频(I2V)任务中表现出色,凭借其算法创新和专用基础设施,提供高时间连贯性和可扩展性。
MAGI-1 是由 Sand AI 开发的先进自回归视频生成模型。它通过自回归方式预测视频块序列来生成高质量视频。该模型经过训练,能够对视频块进行去噪,支持因果时间建模和流式生成。MAGI-1 在图像到视频(I2V)任务中表现出色,凭借其算法创新和专用基础设施,提供高时间连贯性和可扩展性。
模型特性
MAGI-1 采用基于 Transformer 的变分自编码器(VAE),提供 8 倍空间和 4 倍时间压缩。这使得解码速度更快,重建质量具有竞争力。该模型采用自回归去噪算法,以块为单位生成视频。每个块(24 帧)整体去噪,当前块达到一定去噪水平后,下一个块立即开始。这种管道设计允许同时处理多达四个块,以高效生成视频。
MAGI-1 的扩散模型架构基于扩散 Transformer,引入了块因果注意力、并行注意力块、QK-Norm 和 GQA 等创新。它还采用 FFN 中的三明治归一化、SwiGLU 和 Softcap 调制,以增强大规模训练的效率和稳定性。此外,MAGI-1 使用快捷蒸馏来训练单个基于速度的模型,支持可变推理预算,确保高效推理,同时最大限度地减少保真度损失。
模型变体
MAGI-1 提供 24B 和 4.5B 模型的预训练权重,以及相应的蒸馏和蒸馏+量化模型。24B 模型针对高保真视频生成进行了优化,而 4.5B 模型适用于资源受限的环境。提供了蒸馏和量化的模型,以实现更快的推理。
评估结果
在人类评估中,MAGI-1 在遵循指令和动作质量方面优于其他开源模型,如 Wan-2.1、Hailuo 和 HunyuanVideo。这使其成为封闭源商业模型的有力竞争对手。在物理评估中,MAGI-1 在通过视频延续预测物理行为方面表现出更高的精度,显著优于现有模型。
应用
MAGI-1 适用于多种应用,包括内容创作、游戏开发、电影后期制作和教育。其“无限视频扩展”功能允许无缝扩展视频内容。结合“秒级时间轴控制”,它使用户能够通过分块提示实现平滑场景转换和精细编辑。此功能满足了电影制作和故事讲述的需求。
运行 MAGI-1
MAGI-1 可以使用 Docker 或直接从源代码运行。推荐使用 Docker,因为它易于设置。用户可以通过修改提供的 run.sh 脚本中的参数来控制输入和输出。该模型在 Apache License 2.0 下发布。
MAGI-1 是视频生成领域的一项重大进步。它提供了高质量、可扩展且高效的视频生成能力。其创新特性和卓越性能使其成为广泛用途的宝贵工具。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)