TV-LiVE

文章提出了一个training-free的文本引导的视频编辑方法,主要借鉴StableFlow,通过找关键层来实现视频/图像编辑。具体来说,作者通过去掉某层,或去掉某层的位置编码,计算修改前后的输出的相似度,从而得到每一层的重要度(作者发现去掉某层与去掉某层的位置编码具有强相关性)。识别出关键层后,通过KV替换的方式进行视频编辑,值得注意的是,对于真实图像编辑,需要进行inversion,效果依赖于inversion的质量。