Tune-A-Video | lc's space

文章标题：Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
文章地址：https://arxiv.org/abs/2212.11565
ICCV 2023

方法跟PnP很像，只不过为了保证视频帧的连续性，使用了video对T2I模型进行了调整。标题说是视频生成，但我觉得更偏向于视频编辑：其生成的视频保持原视频的布局，满足文本提示。具体来说，首先使用一段视频对T2I模型进行编辑，但T2I模型是处理图片的，处理不了视频，因此该文章魔改了原模型的UNet结构：0、将输入改成3D的输入，例如卷积3*3改成1*3*3。因此将视频作为一个整体了。 1、将原self-attention改成了ST-attention（时空），具体就是每一帧的原来的q不变，k和v从原来自己变成了前一帧和第一帧的拼接。2、增加了一个T-attention层（时间），具体实现论文中也没说，看代码就是在帧数维度上做一个self-attention，目的就是保证不同帧的连续性。然后推理时使用原视频DDIM反转后的噪声开始进行扩散。训练的部分为ST-attn的Q，CA的Q以及T-attn的QKV。感觉有点像将原视频拟合到T2I模型，然后通过文本进行重新生成完成编辑。

数据：微调给定视频
指标：CLIP-Score（生成图像帧与原视频帧的相似度以及与文本的对齐度）；User Study
硬件：1 A100
开源：https://tuneavideo.github.io

eDiff-I

SDEdit