<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><span style="color: #FCB827">https://arxiv.org/abs/2601.14250</span> </li><li>CVPR 2026</li></ul> <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/E98B2CBA-2881-4B1E-AB3D-8D200D6C84F4/1_04C2A5D1-8C9E-4130-8590-602465991D59/Pasted%20Graphic.tiff" class="attr" data-apple-notes-zidentifier="A7291D2D-6146-49E4-A1D7-073676C1FE89"></a> 文章提出了一个视频转移框架,其实就是在视频生成过程中引入视频条件,该框架支持多任务,包含外观转移(如ID转移)和时序转移(如动作转移)。 具体来说,target video与reference video的帧数一致,分辨率不一定一致,整个框架基于Wan2.1-I2V,因此,在输入端,target video除噪声外,还会在channel维度拼接mask和首帧(可选),reference经过VAE编码,与task flag共同组成latent,其中c与z一样。随后对于target video的位置编码跟随标准RoPE,reference video的位置编码则根据任务对标准RoPE进行偏移构造,具体如下: <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/52177BC8-D7D5-490A-B934-027A6B5EC799/1_97729EEA-E11B-488C-96DB-3AF50290FD95/Pasted%20Graphic%201.tiff" class="attr" data-apple-notes-zidentifier="28DBFE8D-A851-431C-AC62-299022F0C2BA"></a> 对于temporal,这么做的原因是作者发现DiT本身具有利用空间上下文来保持时序一致性的能力: <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/D25FC5BB-F6A7-4CB0-BDFE-51B0F7E33629/1_773BDDB1-09FE-415F-8BC5-80975322D38D/Pasted%20Graphic%202.tiff" class="attr" data-apple-notes-zidentifier="20164C05-3123-45DE-97B7-ECFB98686CA8"></a> 对于appearance,作者解释为利用模型的视觉信息在时序上的延续性。 随后就是如何注入条件,作者提到,直观的做法是将其作为一整个序列输入到DiT中进行self-attention的计算,但这样会有两个问题:1、生成的视频会呈现参考视频的‘复制粘贴’;2、会达到原来四倍的计算复杂度。 因此,作者提出了参考分离的注入机制,也非常简单,就是额外增加一个参考视频分支,随后将该分支的KV注入到目标分支中。参考分支timestep设置为0. 另外为了保持多任务的有效性,作者将原来的文本编码器T5替换成了MLLM,其包含更多语义信息用于增强模型的文本理解能力。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:内部数据,自己收集</li><li>开源:https://github.com/PangzeCheung/OmniTransfer</li></ul>