ShotStream | lc's space

文章标题：ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling
文章地址：https://arxiv.org/abs/2603.25746
arxiv 2603

多镜头视频生成对于长叙事非常重要，但当前的双向注意力架构受限于低交互性和高延迟。作者提出了ShotStream，一个全新的因果多镜头视频生成架构，支持交互式叙事和高效的实时帧生成。具体来说，作者先微调一个双向的next-shot生成的模型，如下图：

随后通过DMD蒸馏成一个因果的student模型。为了解决镜头内一致的问题以及累积误差，作者提出了两个创新。首先是对偶cache机制，通过将条件帧进行cache作为global context以及当前镜头的cache作为local context；第二，作者提出了两阶段蒸馏策略（如最上面的主图），首先进行镜头内的self forcing，随后进行镜头间的self forcing。

数据：内部多镜头数据
硬件：32 H800
开源：https://luo0207.github.io/ShotStream/

LongLive

Flow-DPO