Self Forcing

  • 文章标题:Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
  • 文章地址:https://arxiv.org/abs/2506.08009
  • NeurIPS 2025 spotlight
作者提出了Self Forcing,一个全新的自回归视频扩散模型的训练范式,它解决了一个长期的问题:暴露偏差,即模型在GT的上下文训练而推理时的上下文是自己生成的不完美的结果。Self Forcing在训练中通过包含kv-cache的训练时每一轮自回归生成后续帧,并将其作为下一帧的条件。这种训练策略可以在视频层面进行整体损失的计算而不是之前方法帧级别的损失计算。 算法如下: 同时,自回归模型本身就具备外推能力,作者利用滑动窗口的KV-Cache来实现长视频生成。