ShotStream

多镜头视频生成对于长叙事非常重要,但当前的双向注意力架构受限于低交互性和高延迟。作者提出了ShotStream,一个全新的因果多镜头视频生成架构,支持交互式叙事和高效的实时帧生成。 具体来说,作者先微调一个双向的next-shot生成的模型,如下图: 随后通过DMD蒸馏成一个因果的student模型。为了解决镜头内一致的问题以及累积误差,作者提出了两个创新。首先是对偶cache机制,通过将条件帧进行cache作为global context以及当前镜头的cache作为local context;第二,作者提出了两阶段蒸馏策略(如最上面的主图),首先进行镜头内的self forcing,随后进行镜头间的self forcing。
  • 数据:内部多镜头数据
  • 硬件:32 H800
  • 开源:https://luo0207.github.io/ShotStream/