MotionClone

文章提出了一个无需训练即可完成动作克隆视频生成的方法,该方法思路也很简单,就是认为在视频扩散模型当中,动作由时序注意力模块建模,将该模块的注意力矩阵进行替换,是否可以将动作进行相应的替换。作者发现如果直接将注意力矩阵进行替换,则生成的效果不好,可能是因为某些注意力元素与动作关系不大;作者则尝试将矩阵中主要的元素进行对齐,这里对齐什么呢?就是将参考视频进行某一步的无文本推理,得到其时序模块的注意力矩阵,然后得到其主要元素和相应的掩码,然后利用梯度对原路径的隐变量进行优化,从而实现了动作的克隆。
  • 数据:无需训练
  • 指标:文本对齐度(CLIP);帧间连续性;用户评判
  • 硬件:未提及,要不了多少
  • 开源:https://github.com/LPengYang/MotionClone