PnP-Diffusion | lc's space

文章标题：Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
文章地址：https://arxiv.org/abs/2211.12572
CVPR 2023

文章任务为利用文本对真实图像进行编辑，且其布局不变。作者通过对扩散模型内部的特征表示进行分析，发现其decoder部分中间层的空间特征能够反映不同的语义区域，并且其self-attention矩阵也有类似的特点（这里有点问题），因此，将真实图像进行DDIM Inversion后（无文本引导），将其中间特征和SA注入到编辑文本引导的扩散过程中（特定时间步，特定层），实现在保证真实图像语义布局不变的情况下，对图像进行满足文本的编辑。这篇文章同时也反映出，SA map也与图像的布局息息相关。

数据：无需训练
指标：CLIP-T（判断编辑图像与文本对齐度）；DINO（判断与原图结构相似度）
硬件：未提及
开源：https://github.com/MichalGeyer/plug-and-play

SDEdit

DAAM