StoryMem | lc's space

文章标题：StoryMem: Multi-shot Long Video Storytelling with Memory
文章地址：https://arxiv.org/abs/2512.19539
arxiv

作者提到，当前的多镜头叙事视频生成主要包含两种范式：1、在多镜头视频数据中进行训练，联合建模，这种方式需要消耗大量训练资源以及高额的推理成本；2、先生成多个一致性的图像，随后利用多个图像使用I2V模型进行多镜头视频生成，这种方法虽然避开了资源消耗，但其一致性的保留有所欠缺。因此作者提出了StoryMem，在减少推理时间的同时保证了一致性。方法也非常简单，多镜头视频的单镜头依次生成，首先作者构建了一个记忆库，该记忆库存储的是前面所有单镜头中的关键帧（由特定评判准则决定），随后由该记忆库中的帧作为条件引导下一个镜头的生成（这里与Wan2.2的I2V的范式一样，由拼接作为条件引导）。关键帧的选择也非常简单，由语义和美学两部分构成，语义就是若某一帧与前一帧的相似度（CLIP）突然锐减，则该帧作为关键帧，美学即由美学评分模型完成。

数据：自己构建的多镜头视频
开源：https://kevin-thu.github.io/StoryMem/

ConceptAttention

VideoLCT