MOFT | lc's space

文章标题：Video Diffusion Models are Training-free Motion Interpreter and Controller
文章地址：https://arxiv.org/abs/2405.14864v3
NIPS 2024

文章对视频扩散模型当中的内部特征进行分析，目的是得到内在的动作信息。经过对特定层的特征进行PCA分析，文章得到了所谓的动作特征（MOFT），然后在目标采样过程中进行组合损失函数的优化，该损失函数使目标MOFT与参考视频MOFT进行对齐，对潜变量进行更新，完成动作模式的控制。具体来说，MOFT由如下方式获得：首先进行内容相关性去除，即特征减去所有帧特征的平均值（通过该操作，不同动作模式的特征具有区分性，见图2a-b）；随后对主成分向量的权重进行分析，发现其特定通道占据主要影响，因此选取主要的通道特征作为MOFT。

FlowEdit

RoPECraft