PnP-Diffusion

文章任务为利用文本对真实图像进行编辑,且其布局不变。 作者通过对扩散模型内部的特征表示进行分析,发现其decoder部分中间层的空间特征能够反映不同的语义区域,并且其self-attention矩阵也有类似的特点(这里有点问题),因此,将真实图像进行DDIM Inversion后(无文本引导),将其中间特征和SA注入到编辑文本引导的扩散过程中(特定时间步,特定层),实现在保证真实图像语义布局不变的情况下,对图像进行满足文本的编辑。 这篇文章同时也反映出,SA map也与图像的布局息息相关。