<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Video Motion Transfer with Diffusion Transformers</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2412.07776">https://arxiv.org/abs/2412.07776</a> </li><li>CVPR 2025</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749106491/D1E2B358-E852-4BBA-9B90-946A547B6FA8.png" style="background-color:initial;max-width:min(100%,1208px);max-height:min(1070px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749106491/D1E2B358-E852-4BBA-9B90-946A547B6FA8.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1208" height="1070"> 文章提出了首个基于DiT的动作转移方法DiTFlow。对于动作模式的提取,其用参考视频进行编码后以t=0输入到DiT当中,对其特征进行分析获得参考视频的动作信号,这同样避免了DDIM反转的过程。具体来说,针对某层DiT block,计算不同帧间的attention矩阵,其编码了不同帧的patch之间的对应关系。基于此,该方法使用注意力动作流(AMF)来作为参考视频的动作模式,其对attention矩阵进行argmax,即得到了帧间patch的转移向量。从而将该AMF作为gt引导目标视频的去噪过程,具体来说就是在去噪时同样提取目标过程的AMF(此为attention加权偏移向量),然后进行损失的计算,对zt进行更新,实现了动作模式的学习。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749107250/B2F0EDFD-D6F5-4C0D-929E-1F83F2D0AE46.png" style="background-color:initial;max-width:min(100%,1050px);max-height:min(1210px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749107250/B2F0EDFD-D6F5-4C0D-929E-1F83F2D0AE46.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1050" height="1210"> 此外,若不对zt进行优化,而对位置编码进行优化,则可以将优化过后的位置编码迁移到其他不同的prompt中,该过程就可以省略优化的过程。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>模型:基于CogVideoX</li><li>数据:无需训练数据</li><li>指标:MF(某篇文章的动作保留计算方式);IQ(利用CLIP计算视频帧与文本相似度)</li><li>硬件:1 A40</li><li>开源:<a href="https://ditflow.github.io">https://ditflow.github.io</a> </li></ul>