<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2212.11565">https://arxiv.org/abs/2212.11565</a> </li><li>ICCV 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734596591/F2CBCC1E-E546-47E6-81C2-168B641EB74B.png" style="background-color:initial;max-width:min(100%,2384px);max-height:min(1146px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734596591/F2CBCC1E-E546-47E6-81C2-168B641EB74B.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2384" height="1146"> 方法跟PnP很像,只不过为了保证视频帧的连续性,使用了video对T2I模型进行了调整。 标题说是视频生成,但我觉得更偏向于视频编辑:其生成的视频保持原视频的布局,满足文本提示。 具体来说,首先使用一段视频对T2I模型进行编辑,但T2I模型是处理图片的,处理不了视频,因此该文章魔改了原模型的UNet结构:0、将输入改成3D的输入,例如卷积3*3改成1*3*3。因此将视频作为一个整体了。 1、将原self-attention改成了ST-attention(时空),具体就是每一帧的原来的q不变,k和v从原来自己变成了前一帧和第一帧的拼接。2、增加了一个T-attention层(时间),具体实现论文中也没说,看代码就是在帧数维度上做一个self-attention,目的就是保证不同帧的连续性。然后推理时使用原视频DDIM反转后的噪声开始进行扩散。 训练的部分为ST-attn的Q,CA的Q以及T-attn的QKV。 感觉有点像将原视频拟合到T2I模型,然后通过文本进行重新生成完成编辑。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734598199/939CED71-A94C-427D-82B9-3CA14D2EF4EB.png" style="background-color:initial;max-width:min(100%,2168px);max-height:min(1714px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734598199/939CED71-A94C-427D-82B9-3CA14D2EF4EB.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2168" height="1714"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:微调给定视频</li><li>指标:CLIP-Score(生成图像帧与原视频帧的相似度以及与文本的对齐度);User Study</li><li>硬件:1 A100</li><li>开源:<a href="https://tuneavideo.github.io/">https://tuneavideo.github.io</a> </li></ul>