<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>MOTIONCLONE: TRAINING-FREE MOTION CLONING FOR CONTROLLABLE VIDEO GENERATION</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2406.05338">https://arxiv.org/abs/2406.05338</a> </li><li>ICLR 2025</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1741618970/F4502282-C59B-4A15-A3AE-1DD214DD6546.png" style="background-color:initial;max-width:min(100%,1782px);max-height:min(1192px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1741618970/F4502282-C59B-4A15-A3AE-1DD214DD6546.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1782" height="1192"> 文章提出了一个无需训练即可完成动作克隆视频生成的方法,该方法思路也很简单,就是认为在视频扩散模型当中,动作由时序注意力模块建模,将该模块的注意力矩阵进行替换,是否可以将动作进行相应的替换。作者发现如果直接将注意力矩阵进行替换,则生成的效果不好,可能是因为某些注意力元素与动作关系不大;作者则尝试将矩阵中主要的元素进行对齐,这里对齐什么呢?就是将参考视频进行某一步的无文本推理,得到其时序模块的注意力矩阵,然后得到其主要元素和相应的掩码,然后利用梯度对原路径的隐变量进行优化,从而实现了动作的克隆。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1741619574/FC9EBD61-8A1C-48D4-A604-AD5027745F94.png" style="background-color:initial;max-width:min(100%,2094px);max-height:min(1282px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1741619574/FC9EBD61-8A1C-48D4-A604-AD5027745F94.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2094" height="1282"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li>指标:文本对齐度(CLIP);帧间连续性;用户评判</li><li>硬件:未提及,要不了多少</li><li><span style="font-family: '.PingFangUITextSC-Regular'">开源:</span>https://github.com/LPengYang/MotionClone</li></ul>