VideoLCT

作者提出了一个训练方法,用于场景水平的视频生成,即在同一场景内生成多镜头的视频,同时保证多镜头内场景的一致性。 由单镜头的视频生成模型进行拓展,模型输入多镜头的token以及规定格式的prompt,经过训练完成联合建模。其中提出了插入式的3D位置编码,即上图右侧部分。值得注意的是,为了引入额外的图像全局条件(完成指定场景、人物),在训练时,每个镜头的diffusion step是独立的,从而可以使得单个镜头生成时,关注噪声水平更小的部分。 另外,作者还说明了三种推理模式,分别是共同去噪、条件生成以及自回归生成(需要进行额外微调,该方法可以利用KV-cache完成推理加速)。 我认为,这里面最难理解也是最关键的地方就是多镜头diffusion step的独立采样,通过该训练方式,使得模型能够完成多种生成方式。
  • 数据:自己收集的500K条多镜头数据
  • 硬件:128 H800
  • 未开源