<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Video Diffusion Models are Training-free Motion Interpreter and Controller</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2405.14864v3">https://arxiv.org/abs/2405.14864v3</a> </li><li>NIPS 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1751893419/1F0320EB-1BC5-4036-8458-C17533FB3ADE.png" style="background-color:initial;max-width:min(100%,1620px);max-height:min(1458px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1751893419/1F0320EB-1BC5-4036-8458-C17533FB3ADE.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1620" height="1458"> 文章对视频扩散模型当中的内部特征进行分析,目的是得到内在的动作信息。经过对特定层的特征进行PCA分析,文章得到了所谓的动作特征(MOFT),然后在目标采样过程中进行组合损失函数的优化,该损失函数使目标MOFT与参考视频MOFT进行对齐,对潜变量进行更新,完成动作模式的控制。 具体来说,MOFT由如下方式获得:首先进行内容相关性去除,即特征减去所有帧特征的平均值(通过该操作,不同动作模式的特征具有区分性,见图2a-b);随后对主成分向量的权重进行分析,发现其特定通道占据主要影响,因此选取主要的通道特征作为MOFT。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1751893418/76F6628B-73C5-4F9D-8E3A-23F4D6C608AB.png" style="background-color:initial;max-width:min(100%,1634px);max-height:min(542px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1751893418/76F6628B-73C5-4F9D-8E3A-23F4D6C608AB.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1634" height="542">