DiTFlow

文章提出了首个基于DiT的动作转移方法DiTFlow。对于动作模式的提取,其用参考视频进行编码后以t=0输入到DiT当中,对其特征进行分析获得参考视频的动作信号,这同样避免了DDIM反转的过程。具体来说,针对某层DiT block,计算不同帧间的attention矩阵,其编码了不同帧的patch之间的对应关系。基于此,该方法使用注意力动作流(AMF)来作为参考视频的动作模式,其对attention矩阵进行argmax,即得到了帧间patch的转移向量。从而将该AMF作为gt引导目标视频的去噪过程,具体来说就是在去噪时同样提取目标过程的AMF(此为attention加权偏移向量),然后进行损失的计算,对zt进行更新,实现了动作模式的学习。 此外,若不对zt进行优化,而对位置编码进行优化,则可以将优化过后的位置编码迁移到其他不同的prompt中,该过程就可以省略优化的过程。
  • 模型:基于CogVideoX
  • 数据:无需训练数据
  • 指标:MF(某篇文章的动作保留计算方式);IQ(利用CLIP计算视频帧与文本相似度)
  • 硬件:1 A40
  • 开源:https://ditflow.github.io