<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>MOTION INVERSION FOR VIDEO CUSTOMIZATION</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2403.20193">https://arxiv.org/abs/2403.20193</a> </li><li>SIGGRAPH 2025</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_dba5cb2b-1ee5-42c9-b101-a196e3a534c7/public" style="background-color:initial;max-width:min(100%,1426px);max-height:min(820px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_dba5cb2b-1ee5-42c9-b101-a196e3a534c7/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1426" height="820"> 文章的任务是动作转移,解决方法也非常简单,就是利用texutal inversion的思想,将motion反转到一组embedding当中,其中qk一组,v一组,这由U-Net的结构决定的,在推理时注入这些embedding完成动作转移。 这篇文章投ICLR2025被拒,主要的点在于这种构造embedding优化的方式与MotionDirector的LoRA的方式虽然说在形式上不太一样,但目的是相似的,文章并没有说明区别,从而缺少创新性。