Saber | lc's space

文章标题：Scaling Zero-Shot Reference-to-Video Generation
文章地址：https://arxiv.org/abs/2512.06905
arxiv 2025

这篇文章带来了眼前一亮的感觉，其目的也是解决S2V的问题，文章称之为R2V，作者提到现在的所有R2V的方法都依赖于特定的R2V数据（参考图-文本-视频），构建这些数据往往比较费时费力，且不容易scaling，那么作者就提出了saber，利用大规模T2V（文本-视频）数据对，来进行R2V的训练。其核心就是作者提出了一个mask训练策略以及调整attention方式。首先作者在训练过程中从视频随机提取k帧作为参考帧，随后通过随机mask得到参考区域，随后以上图的方式与video token进行拼接输入到模型当中（与Wan2.1-I2V很像）。为了避免复制粘贴的现象出现，作者对参考图进行了增强。整个mask构造以及增强的过程如下图：

其中mask generator就是随机选取一个预定义的形状，然后缩放到前景区域占比的阈值内。另外，在self-attention计算过程中，将ref image中被mask掉的区域不参与attention的计算。

BindWeave

MAGREF