摘要:扩散模型已在图像和视频生成领域引发变革,实现了前所未有的视觉质量。然而,这类模型依赖Transformer架构,导致计算成本极高,尤其是在将生成过程扩展至长视频时尤为明显。近期研究探索了用于长视频生成的自回归公式,通常做法是从短时域双向“教师”模型中提炼知识。然而,由于“教师”模型无法合成长视频,“学生”模型在其训练时域之外的推断往往会导致显著的质量下降,这是由于连续潜在空间内的误差累积所致。在本文中,我们提出了一种简单而有效的方法,无需依赖长视频“教师”模型的监督或在长视频数据集上进行重新训练,即可缓解长时域视频生成中的质量下降问题。我们的方法核心在于,利用“教师”模型的丰富知识,通过从自生成的长视频中抽取采样片段,为“学生”模型提供指导。我们的方法在将视频时长扩展至超出“教师”模型能力上限20倍的同时,保持了时间一致性,避免了过曝和误差累积等常见问题,且无需像以往方法那样重新计算重叠帧。在增加计算量的情况下,我们的方法能够生成长达4分15秒的视频,这相当于基础模型位置嵌入所支持的最大时长的99.9%,且比基线模型所生成的视频时长长50倍以上。在标准基准测试和我们提出的改进基准测试上的实验表明,我们的方法在保真度和一致性方面均大幅优于基线方法。我们的长时域视频演示可在https://self-forcing-plus-plus.github.io/查看。Huggingface链接:Paper page,论文链接:2510.02283

研究背景和目的

研究背景

随着深度学习技术的快速发展,视频生成领域取得了显著进展,特别是基于扩散模型(Diffusion Models)的方法,如Sora、Wan、Hunyuan-DiT和Veo等,它们能够生成高质量的视频内容,极大地缩短了生成内容与现实之间的差距。

然而,这些模型大多依赖于Transformer架构,导致在生成长视频时面临计算成本高昂的问题。Transformer架构的非流式和非因果性质,使得其在时间可扩展性方面存在显著挑战,大多数现有模型只能生成短至5-10秒的视频片段。

长视频生成的关键挑战在于,如何在保持视频质量和时间一致性的同时,扩展视频的生成长度。现有的方法,如通过从短时双向教师模型中蒸馏出学生模型来进行长视频生成,但由于教师模型无法合成长视频,学生模型在超出其训练范围时往往会出现质量显著下降的问题。

此外,连续潜在空间中的误差累积也会导致视频质量随时间推移而恶化。

研究目的

本研究旨在提出一种简单而有效的方法——Self-Forcing++,以解决长视频生成中的质量下降问题,而无需依赖长视频教师模型的监督或重新训练长视频数据集。

Self-Forcing++通过利用教师模型的丰富知识,指导学生在自我生成的长视频上进行训练,从而在不重新训练的情况下,扩展高质量视频的生成长度。具体目标包括:

  1. 提高长视频生成的质量:通过减少误差累积,保持视频在长时间生成过程中的视觉质量和时间一致性。
  2. 扩展视频生成长度:在不依赖长视频教师模型的情况下,将视频生成长度扩展至数分钟,超越现有方法的限制。
  3. 提出新的评估指标:针对现有长视频评估基准的偏见,提出新的评估指标Visual Stability,以更准确地评估长视频的质量。

研究方法

Self-Forcing++的研究方法主要基于以下几个关键步骤:

  1. 教师模型的初始化
    • 通过将原始的双向教师模型蒸馏成少步生成器,然后将其转换为自回归模型。这一过程通过训练学生模型复制从教师模型中采样的ODE轨迹来实现。
  2. 向后噪声初始化
    • 为了解决训练与推理之间的不匹配问题,Self-Forcing++引入了向后噪声初始化策略。通过向由学生模型生成的干净轨迹中重新注入噪声,并作为初始噪声使用,确保生成的轨迹在时间上保持一致。
  3. 扩展分布匹配蒸馏
    • 不同于传统方法仅在短时窗口内进行分布匹配,Self-Forcing++在长时窗口内进行分布匹配。通过从学生生成的长序列中均匀采样一个短时窗口,并计算学生与教师模型在该窗口内的分布差异,从而指导学生模型在长时范围内保持与教师模型的一致性。
  4. 滚动KV缓存
    • 在训练和推理过程中均使用滚动KV缓存,以避免重复计算重叠帧,从而简化训练过程并减少误差累积。
  5. 利用GRPO提高长期平滑度
    • 引入组相对策略优化(GRPO)技术,通过计算每一步的重要性权重,并利用光流作为运动连续性的代理,指导模型生成更平滑的长视频。

研究结果

实验结果

  1. 短时视频生成
    • 在5秒短时视频生成任务中,Self-Forcing++与Self-Forcing基线方法性能相当,但在语义得分和总得分上略有提升,表明其在短时生成上的稳健性。
  2. 长时视频生成
    • 在50秒、75秒和100秒的长时视频生成任务中,Self-Forcing++显著优于基线方法。例如,在100秒视频生成任务中,Self-Forcing++在文本对齐度、动态程度和视觉稳定性等关键指标上均优于CausVid和Self-Forcing基线方法。
  3. 缩放性质
    • 通过增加训练计算量,Self-Forcing++能够生成更长的视频。实验表明,在25倍训练预算下,模型能够生成255秒的高质量视频,且质量损失极小。

用户研究和评估

  1. VBench评估
    • 在VBench基准测试中,Self-Forcing++在短时视频生成上与基线方法性能相当,但在长时视频生成上显著优于基线方法。
  2. 新评估指标Visual Stability
    • 针对VBench在长视频评估中的偏见,提出了新的评估指标Visual Stability。实验结果表明,Self-Forcing++在Visual Stability指标上显著优于基线方法,表明其在长时生成中能够更好地保持视觉稳定性和质量。
  3. 人工验证
    • 通过Gemini-2.5-Pro对生成的长视频进行人工验证,结果表明Self-Forcing++生成的视频在曝光稳定性、运动连续性和整体质量上均优于基线方法。

研究局限

尽管Self-Forcing++在长视频生成领域取得了显著进展,但仍存在以下局限:

  1. 计算成本
    • 尽管通过增加训练计算量可以生成更长的视频,但这也带来了更高的计算成本。对于资源有限的研究者和开发者来说,这可能是一个限制因素。
  2. 模型容量
    • Self-Forcing++的性能在一定程度上依赖于基础模型的容量。使用更大、更强大的模型可能会带来更好的生成效果,但也会增加计算负担和部署难度。
  3. 评估指标的局限性
    • 尽管提出了新的评估指标Visual Stability,但长视频质量的评估仍然是一个挑战。未来的研究需要开发更全面、更准确的评估指标,以更好地衡量长视频的质量。

未来研究方向

针对Self-Forcing++的局限性和当前研究的不足,未来工作可以从以下几个方面展开:

  1. 优化训练过程
    • 探索更高效的训练策略,如并行化训练过程,以减少训练时间和计算成本。同时,研究如何利用迁移学习和微调技术,在已有模型的基础上快速适应新的长视频生成任务。
  2. 增强模型容量和灵活性
    • 研究如何增加模型的容量和灵活性,以更好地处理复杂的长视频生成任务。这可能包括引入更复杂的网络结构、注意力机制或记忆机制等。
  3. 开发更全面的评估指标
    • 针对长视频质量的评估问题,开发更全面、更准确的评估指标。这些指标应能够综合考虑视频的视觉质量、时间一致性、语义合理性等多个方面。
  4. 探索多模态生成
    • 将Self-Forcing++方法扩展到多模态生成领域,如同时生成视频和音频内容。这需要研究如何有效地融合不同模态的信息,并保持它们之间的一致性。
  5. 实际应用和部署
    • 研究如何将Self-Forcing++方法应用于实际场景中,如电影制作、虚拟现实、在线教育等领域。这需要考虑模型的实时性、可扩展性和用户体验等因素。

通过上述研究方向的深入探索,Self-Forcing++有望在未来进一步提升长视频生成的效率和质量,推动视频生成技术的发展和应用。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐