<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Scaling Zero-Shot Reference-to-Video Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2512.06905">https://arxiv.org/abs/2512.06905</a> </li><li>arxiv 2025</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_5e1d783d-02a4-416f-9714-870ab32a3419/public" style="background-color:initial;max-width:min(100%,1352px);max-height:min(1724px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_5e1d783d-02a4-416f-9714-870ab32a3419/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1352" height="1724"> 这篇文章带来了眼前一亮的感觉,其目的也是解决S2V的问题,文章称之为R2V,作者提到现在的所有R2V的方法都依赖于特定的R2V数据(参考图-文本-视频),构建这些数据往往比较费时费力,且不容易scaling,那么作者就提出了saber,利用大规模T2V(文本-视频)数据对,来进行R2V的训练。 其核心就是作者提出了一个mask训练策略以及调整attention方式。首先作者在训练过程中从视频随机提取k帧作为参考帧,随后通过随机mask得到参考区域,随后以上图的方式与video token进行拼接输入到模型当中(与Wan2.1-I2V很像)。为了避免复制粘贴的现象出现,作者对参考图进行了增强。整个mask构造以及增强的过程如下图: <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_e01c8be6-926e-4b97-92f3-08b060b1d516/public" style="background-color:initial;max-width:min(100%,1366px);max-height:min(1218px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_e01c8be6-926e-4b97-92f3-08b060b1d516/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1366" height="1218"> 其中mask generator就是随机选取一个预定义的形状,然后缩放到前景区域占比的阈值内。 另外,在self-attention计算过程中,将ref image中被mask掉的区域不参与attention的计算。