OmniTransfer | lc's space

文章标题：OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
文章地址：https://arxiv.org/abs/2601.14250
CVPR 2026

文章提出了一个视频转移框架，其实就是在视频生成过程中引入视频条件，该框架支持多任务，包含外观转移（如ID转移）和时序转移（如动作转移）。具体来说，target video与reference video的帧数一致，分辨率不一定一致，整个框架基于Wan2.1-I2V，因此，在输入端，target video除噪声外，还会在channel维度拼接mask和首帧（可选），reference经过VAE编码，与task flag共同组成latent，其中c与z一样。随后对于target video的位置编码跟随标准RoPE，reference video的位置编码则根据任务对标准RoPE进行偏移构造，具体如下：对于temporal，这么做的原因是作者发现DiT本身具有利用空间上下文来保持时序一致性的能力：对于appearance，作者解释为利用模型的视觉信息在时序上的延续性。随后就是如何注入条件，作者提到，直观的做法是将其作为一整个序列输入到DiT中进行self-attention的计算，但这样会有两个问题：1、生成的视频会呈现参考视频的‘复制粘贴’；2、会达到原来四倍的计算复杂度。因此，作者提出了参考分离的注入机制，也非常简单，就是额外增加一个参考视频分支，随后将该分支的KV注入到目标分支中。参考分支timestep设置为0. 另外为了保持多任务的有效性，作者将原来的文本编码器T5替换成了MLLM，其包含更多语义信息用于增强模型的文本理解能力。

数据：内部数据，自己收集
开源：https://github.com/PangzeCheung/OmniTransfer

MS-S2V

EchoShot