DiTFlow | lc's space

文章标题：Video Motion Transfer with Diffusion Transformers
文章地址：https://arxiv.org/abs/2412.07776
CVPR 2025

文章提出了首个基于DiT的动作转移方法DiTFlow。对于动作模式的提取，其用参考视频进行编码后以t=0输入到DiT当中，对其特征进行分析获得参考视频的动作信号，这同样避免了DDIM反转的过程。具体来说，针对某层DiT block，计算不同帧间的attention矩阵，其编码了不同帧的patch之间的对应关系。基于此，该方法使用注意力动作流（AMF）来作为参考视频的动作模式，其对attention矩阵进行argmax，即得到了帧间patch的转移向量。从而将该AMF作为gt引导目标视频的去噪过程，具体来说就是在去噪时同样提取目标过程的AMF（此为attention加权偏移向量），然后进行损失的计算，对zt进行更新，实现了动作模式的学习。

此外，若不对zt进行优化，而对位置编码进行优化，则可以将优化过后的位置编码迁移到其他不同的prompt中，该过程就可以省略优化的过程。

模型：基于CogVideoX
数据：无需训练数据
指标：MF（某篇文章的动作保留计算方式）；IQ（利用CLIP计算视频帧与文本相似度）
硬件：1 A40
开源：https://ditflow.github.io

AnalysisAttentionVDiT

FreeTraj