<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2603.25746">https://arxiv.org/abs/2603.25746</a> </li><li>arxiv 2603</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_465cc764-7ee5-4733-b1db-30f35e387f1a/public" style="background-color:initial;max-width:min(100%,1850px);max-height:min(1776px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_465cc764-7ee5-4733-b1db-30f35e387f1a/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1850" height="1776"> 多镜头视频生成对于长叙事非常重要,但当前的双向注意力架构受限于低交互性和高延迟。作者提出了ShotStream,一个全新的因果多镜头视频生成架构,支持交互式叙事和高效的实时帧生成。 具体来说,作者先微调一个双向的next-shot生成的模型,如下图: <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_fbe1c924-094c-4089-bcd1-8f5535b7f40f/public" style="background-color:initial;max-width:min(100%,1838px);max-height:min(796px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_fbe1c924-094c-4089-bcd1-8f5535b7f40f/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1838" height="796"> 随后通过DMD蒸馏成一个因果的student模型。为了解决镜头内一致的问题以及累积误差,作者提出了两个创新。首先是对偶cache机制,通过将条件帧进行cache作为global context以及当前镜头的cache作为local context;第二,作者提出了两阶段蒸馏策略(如最上面的主图),首先进行镜头内的self forcing,随后进行镜头间的self forcing。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:内部多镜头数据</li><li>硬件:32 H800</li><li>开源:https://luo0207.github.io/ShotStream/</li></ul>