Saber

这篇文章带来了眼前一亮的感觉,其目的也是解决S2V的问题,文章称之为R2V,作者提到现在的所有R2V的方法都依赖于特定的R2V数据(参考图-文本-视频),构建这些数据往往比较费时费力,且不容易scaling,那么作者就提出了saber,利用大规模T2V(文本-视频)数据对,来进行R2V的训练。 其核心就是作者提出了一个mask训练策略以及调整attention方式。首先作者在训练过程中从视频随机提取k帧作为参考帧,随后通过随机mask得到参考区域,随后以上图的方式与video token进行拼接输入到模型当中(与Wan2.1-I2V很像)。为了避免复制粘贴的现象出现,作者对参考图进行了增强。整个mask构造以及增强的过程如下图: 其中mask generator就是随机选取一个预定义的形状,然后缩放到前景区域占比的阈值内。 另外,在self-attention计算过程中,将ref image中被mask掉的区域不参与attention的计算。