摘要:我们提出了一种神经网络结构FramePack,用于训练视频生成的下一帧(或下一帧部分)预测模型。 FramePack压缩输入帧,使变换器上下文长度为固定值,而与视频长度无关。 因此,我们能够使用视频扩散处理大量帧,并具有类似于图像扩散的计算瓶颈。 这也使得训练视频的批量大小显著增加(批量大小变得与图像扩散训练相当)。 我们还提出了一种反漂移采样方法,该方法以逆时间顺序生成具有早期建立的端点的帧,以避免曝光偏差(迭代过程中的误差累积)。 最后,我们展示了现有的视频扩散模型可以通过FramePack进行微调,并且它们的视觉质量可能会得到改善,因为下一帧预测支持更平衡的扩散调度器,具有更少的极端流移时间步。Huggingface链接:Paper page,论文链接:2504.12626

研究背景和目的

近年来,随着人工智能和深度学习的飞速发展,视频生成技术已成为计算机视觉和机器学习领域的研究热点。然而,在视频生成任务中,尤其是在长视频生成方面,存在两个主要问题:遗忘和漂移。遗忘问题指的是模型在预测后续帧时,难以记住早期内容并保持一致的时间依赖性;而漂移问题则是指由于误差在时间上的累积,导致视觉质量随视频长度增加而逐渐下降,也被称为曝光偏差。这两个问题相互关联且难以同时解决,任何旨在缓解遗忘问题而增强记忆的方法都可能加剧漂移问题,反之亦然。

针对上述问题,本研究旨在提出一种创新的解决方案,以提高视频生成模型的长视频生成能力,并同时解决遗忘和漂移问题。具体来说,本研究提出了一种名为FramePack的神经网络结构,以及与之配套的反漂移采样方法。FramePack通过压缩输入帧来固定变换器上下文长度,从而能够在不增加计算瓶颈的情况下处理更多帧。反漂移采样方法则通过生成具有早期建立端点的逆时间顺序帧来避免曝光偏差。

研究方法

FramePack结构

FramePack的核心思想是基于输入帧的重要性对它们进行压缩。在不失一般性的情况下,研究假设时间接近度反映了重要性:时间上更接近预测目标的帧可能更相关。FramePack定义了一个长度函数来确定每个帧在VAE编码和变换器补丁化后的上下文长度,并对不太重要的帧应用渐进压缩。

具体实现上,FramePack通过操纵变换器的补丁化内核大小来实现帧级压缩。对于给定的压缩参数λ(λ>1),每帧的上下文长度遵循几何级数。当输入帧数趋于无穷大时,总上下文长度收敛到一个固定上限。这种方法使得FramePack的计算瓶颈与输入帧数无关,从而能够处理任意长度的视频。

反漂移采样方法

为了解决漂移问题,研究提出了两种反漂移采样方法:具有端点的反漂移采样和逆时间顺序的反漂移采样。具有端点的反漂移采样方法在第一次迭代中同时生成开始和结束部分,后续迭代则填充它们之间的空白。这种方法通过早期建立端点来防止漂移。逆时间顺序的反漂移采样方法则将采样顺序颠倒,以逆时间顺序生成帧,并尝试接近已知的高质量帧(如输入帧)。这种方法在处理图像到视频的生成任务时特别有效。

实验设置

研究在文本到视频和图像到视频的任务上评估了FramePack的性能。实验使用了HunyuanVideo和Wan作为基础模型,并在多个数据集上进行了训练。为了全面评估FramePack的效果,研究采用了多种评价指标,包括清晰度、美观度、运动流畅性、动态性、语义一致性、解剖结构和身份一致性等。

研究结果

FramePack的有效性

实验结果表明,FramePack能够显著提高视频生成模型的长视频生成能力。与基线模型相比,FramePack在多个评价指标上均取得了显著改进。特别是在处理长视频时,FramePack能够有效地缓解遗忘和漂移问题,生成更高质量的视频。

反漂移采样方法的性能

反漂移采样方法也表现出了优异的性能。与具有端点的反漂移采样方法相比,逆时间顺序的反漂移采样方法在多个评价指标上取得了更好的结果。特别是在语义一致性、解剖结构和身份一致性等评价指标上,逆时间顺序的反漂移采样方法表现出了更强的性能。

与其他方法的比较

研究还将FramePack与其他相关方法进行了比较。实验结果显示,FramePack在多个评价指标上均优于其他方法。特别是在处理长视频时,FramePack能够生成更清晰、更美观、更流畅的视频。

研究局限

尽管FramePack和反漂移采样方法在实验中表现出了优异的性能,但本研究仍存在一些局限性。首先,FramePack的压缩策略是基于输入帧的时间接近度来假设它们的重要性。然而,在实际应用中,帧的重要性可能受到多种因素的影响,如场景变化、物体运动等。因此,未来的研究可以探索更复杂的帧重要性评估方法。

其次,反漂移采样方法虽然能够有效地缓解漂移问题,但在某些情况下仍可能导致视频质量下降。例如,在逆时间顺序的反漂移采样方法中,如果早期建立的端点质量不高,则可能会影响后续帧的生成质量。因此,如何生成更高质量的端点是一个值得进一步研究的问题。

此外,本研究主要关注于提高视频生成模型的长视频生成能力,而对于其他类型的视频生成任务(如视频编辑、视频修复等)的适用性仍需进一步验证。

未来研究方向

针对上述局限性,未来的研究可以从以下几个方面进行改进和扩展:

  1. 探索更复杂的帧重要性评估方法:研究可以探索基于场景变化、物体运动等多种因素的帧重要性评估方法,以提高FramePack的压缩效率和视频生成质量。
  2. 优化反漂移采样方法:研究可以进一步优化反漂移采样方法,以提高生成的视频质量。例如,可以探索生成更高质量的端点的方法,或者结合其他技术来减少漂移问题。
  3. 拓展应用范围:研究可以探索将FramePack和反漂移采样方法应用于其他类型的视频生成任务中,如视频编辑、视频修复等。这将有助于验证这些方法的普适性和有效性。
  4. 结合其他技术:研究还可以探索将FramePack和反漂移采样方法与其他技术相结合,以提高视频生成模型的整体性能。例如,可以结合强化学习、生成对抗网络等技术来进一步优化视频生成过程。

综上所述,本研究提出了一种创新的FramePack结构和反漂移采样方法,用于提高视频生成模型的长视频生成能力。实验结果表明,这些方法能够有效地缓解遗忘和漂移问题,生成更高质量的视频。然而,本研究仍存在一些局限性,未来的研究可以进一步改进和扩展这些方法的应用范围和性能。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐