<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>StoryMem: Multi-shot Long Video Storytelling with Memory</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2512.19539">https://arxiv.org/abs/2512.19539</a> </li><li>arxiv</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_24055424-d30c-4325-9c75-da7940d7f9c5/public" style="background-color:initial;max-width:min(100%,2238px);max-height:min(1372px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_24055424-d30c-4325-9c75-da7940d7f9c5/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2238" height="1372"> 作者提到,当前的多镜头叙事视频生成主要包含两种范式:1、在多镜头视频数据中进行训练,联合建模,这种方式需要消耗大量训练资源以及高额的推理成本;2、先生成多个一致性的图像,随后利用多个图像使用I2V模型进行多镜头视频生成,这种方法虽然避开了资源消耗,但其一致性的保留有所欠缺。 因此作者提出了StoryMem,在减少推理时间的同时保证了一致性。方法也非常简单,多镜头视频的单镜头依次生成,首先作者构建了一个记忆库,该记忆库存储的是前面所有单镜头中的关键帧(由特定评判准则决定),随后由该记忆库中的帧作为条件引导下一个镜头的生成(这里与Wan2.2的I2V的范式一样,由拼接作为条件引导)。 关键帧的选择也非常简单,由语义和美学两部分构成,语义就是若某一帧与前一帧的相似度(CLIP)突然锐减,则该帧作为关键帧,美学即由美学评分模型完成。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:自己构建的多镜头视频</li><li>开源:<a href="https://kevin-thu.github.io/StoryMem/">https://kevin-thu.github.io/StoryMem/</a> </li></ul>