DragDiffusion | lc's space

文章标题：DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing
文章地址：https://arxiv.org/abs/2306.14435
CVPR 2024

这篇文章灵感来自于DragGAN，将其从GAN迁移到了扩散模型。同时文章也是第一个使用扩散模型做这个任务的，即通过基于点的拖拽来实现对图像的编辑。与其他的基于扩散模型进行图像编辑的方法在多个时间步进行引导不同，该方法仅需要优化一个时间步的隐变量就足够，这基于作者发现在某个特定时间步UNet特征呈现足够的语义和几何信息来支撑基于拖拽的编辑。除了借鉴原DragGAN的方法，文章还使用了微调+参考图像SA替换（MasaCtrl）增加了生成图像的质量。此外，针对这个任务，文章还提出了第一个benchmark来衡量性能。具体来说，分为3步，1、使用目标图像用LoRA微调扩散模型，该步的目的是使模型更好地捕捉到图像的特征，这会增强编辑后生成图像的质量，后面实验也会证明。2、使用DragGAN的方式对隐变量进行编辑，简单来说就是通过多次迭代使拖拽点慢慢挪到目标点（在隐变量中），可参考DragGAN示意图：

3、同MasaCtrl，使用参考图像DDIM反转后的扩散过程进行引导，替换目标过程CA中的K和V矩阵。文章将基于点拖拽的图像编辑引入到了扩散模型中，也算是一个新的方向，并且提出了benchmark，可以考虑follow一下。

数据：无需
指标：新benchmark：DragBench
硬件：1 A100
开源：https://github.com/Yujun-Shi/DragDiffusion

SF-LLaVA

DreamMatcher