<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2506.05207">https://arxiv.org/abs/2506.05207</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1750167312/B3A232C5-F097-4627-802A-4A7F8A078921.png" style="background-color:initial;max-width:min(100%,1828px);max-height:min(1256px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1750167312/B3A232C5-F097-4627-802A-4A7F8A078921.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1828" height="1256"> 文章目的是在DiT上完成one-shot的动作转移方法,先前工作发现DiT中多头注意力不同的头负责不同的信息建模(外观信息或时序信息),因此文章第一步通过对不同头的attention map分析并对其进行分类后得到不同的头,然后第二步通过固定帧进行对外观头的LoRA训练,目的是进行外观信息的学习,然后第三步冻住外观LoRA,在时序头训练LoRA,从而完成了时序信息的学习。在第三步作者使用了稀疏采样的方式进行,使得整个过程更加高效。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1750167896/0B11307C-297E-4628-80D9-B00ADEDE3116.png" style="background-color:initial;max-width:min(100%,1818px);max-height:min(1252px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1750167896/0B11307C-297E-4628-80D9-B00ADEDE3116.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1818" height="1252">