Stand-In

方法提出了一个轻量的reference-to-video方法Stand-In,其核心就是将参考图像通过VAE编码后与视频token共同输入到模型当中,随后修改Self-Attention层如下: 如此一来,只需要训一个自注意力的LoRA就能够完成条件的注入,值得注意的是他这里的位置编码的设计。该方法只支持单参考图像。