Tune-A-Video

方法跟PnP很像,只不过为了保证视频帧的连续性,使用了video对T2I模型进行了调整。 标题说是视频生成,但我觉得更偏向于视频编辑:其生成的视频保持原视频的布局,满足文本提示。 具体来说,首先使用一段视频对T2I模型进行编辑,但T2I模型是处理图片的,处理不了视频,因此该文章魔改了原模型的UNet结构:0、将输入改成3D的输入,例如卷积3*3改成1*3*3。因此将视频作为一个整体了。 1、将原self-attention改成了ST-attention(时空),具体就是每一帧的原来的q不变,k和v从原来自己变成了前一帧和第一帧的拼接。2、增加了一个T-attention层(时间),具体实现论文中也没说,看代码就是在帧数维度上做一个self-attention,目的就是保证不同帧的连续性。然后推理时使用原视频DDIM反转后的噪声开始进行扩散。 训练的部分为ST-attn的Q,CA的Q以及T-attn的QKV。 感觉有点像将原视频拟合到T2I模型,然后通过文本进行重新生成完成编辑。
  • 数据:微调给定视频
  • 指标:CLIP-Score(生成图像帧与原视频帧的相似度以及与文本的对齐度);User Study
  • 硬件:1 A100
  • 开源:https://tuneavideo.github.io