OmniTransfer

  • 文章标题:OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
  • 文章地址:https://arxiv.org/abs/2601.14250
  • CVPR 2026
文章提出了一个视频转移框架,其实就是在视频生成过程中引入视频条件,该框架支持多任务,包含外观转移(如ID转移)和时序转移(如动作转移)。 具体来说,target video与reference video的帧数一致,分辨率不一定一致,整个框架基于Wan2.1-I2V,因此,在输入端,target video除噪声外,还会在channel维度拼接mask和首帧(可选),reference经过VAE编码,与task flag共同组成latent,其中c与z一样。随后对于target video的位置编码跟随标准RoPE,reference video的位置编码则根据任务对标准RoPE进行偏移构造,具体如下: 对于temporal,这么做的原因是作者发现DiT本身具有利用空间上下文来保持时序一致性的能力: 对于appearance,作者解释为利用模型的视觉信息在时序上的延续性。 随后就是如何注入条件,作者提到,直观的做法是将其作为一整个序列输入到DiT中进行self-attention的计算,但这样会有两个问题:1、生成的视频会呈现参考视频的‘复制粘贴’;2、会达到原来四倍的计算复杂度。 因此,作者提出了参考分离的注入机制,也非常简单,就是额外增加一个参考视频分支,随后将该分支的KV注入到目标分支中。参考分支timestep设置为0. 另外为了保持多任务的有效性,作者将原来的文本编码器T5替换成了MLLM,其包含更多语义信息用于增强模型的文本理解能力。
  • 数据:内部数据,自己收集
  • 开源:https://github.com/PangzeCheung/OmniTransfer