StoryMem

作者提到,当前的多镜头叙事视频生成主要包含两种范式:1、在多镜头视频数据中进行训练,联合建模,这种方式需要消耗大量训练资源以及高额的推理成本;2、先生成多个一致性的图像,随后利用多个图像使用I2V模型进行多镜头视频生成,这种方法虽然避开了资源消耗,但其一致性的保留有所欠缺。 因此作者提出了StoryMem,在减少推理时间的同时保证了一致性。方法也非常简单,多镜头视频的单镜头依次生成,首先作者构建了一个记忆库,该记忆库存储的是前面所有单镜头中的关键帧(由特定评判准则决定),随后由该记忆库中的帧作为条件引导下一个镜头的生成(这里与Wan2.2的I2V的范式一样,由拼接作为条件引导)。 关键帧的选择也非常简单,由语义和美学两部分构成,语义就是若某一帧与前一帧的相似度(CLIP)突然锐减,则该帧作为关键帧,美学即由美学评分模型完成。