FollowYourMotion

  • 文章标题:Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
  • 文章地址:https://arxiv.org/abs/2506.05207
  • arxiv
文章目的是在DiT上完成one-shot的动作转移方法,先前工作发现DiT中多头注意力不同的头负责不同的信息建模(外观信息或时序信息),因此文章第一步通过对不同头的attention map分析并对其进行分类后得到不同的头,然后第二步通过固定帧进行对外观头的LoRA训练,目的是进行外观信息的学习,然后第三步冻住外观LoRA,在时序头训练LoRA,从而完成了时序信息的学习。在第三步作者使用了稀疏采样的方式进行,使得整个过程更加高效。