LongLive

作者提出了LongLive,一个帧级别自回归的实时交互式的长视频生成框架。 长视频生成的挑战主要在效率和质量上,扩散模型能生成高质量的视频但双向注意力导致推理延迟过高,因果注意力自回归模型支持KV cache来加速推理,但生成的长视频质量会下降,因为长视频训练中的内存问题。另外,交互式的多prompt的长视频生成在动态内容生成中非常重要。 为了解决这些问题,LongLive采用了因果注意力的自回归架构,提出了KV-recache机制用于在prompt转换中刷新缓存,提升一致性和流畅度;提出了流式长训练,来支持长视频的训练,对齐训练和推理(train-long-test-long);提出了frame sink,提升长范围一致性的同时保持快速推理。 具体来说,第一个点就是上图,增加一个attention模块用于prompt转换时的缓存刷新,与模型共同训练;第二点如下图: 提出该点的原因是教师模型本身就没办法生成高质量的长视频来进行监督,因此该方法将长视频切分为多个clip,然后多个clip用教师模型来监督,生成每个clip时,前面clip的历史同时保留;第三个点如图一,将第一帧作为frame sink,进行滑动窗口的KV-cache时,不丢弃第一帧。
  • 数据:VidProM,转移prompt来自Qwen2生成(将原prompt作为条件)
  • 硬件:12h 64 H100
  • 开源:https://github.com/NVlabs/LongLive