Prompt-Mixing | lc's space

文章标题：Localizing Object-level Shape Variations with Text-to-Image Diffusion Models
文章地址：https://arxiv.org/abs/2303.11306
ICCV 2023

该方法的目标就是生成一系列描述同一目标但多种形状的图像。具体来说文章提出了两点来实现该目标： 1、通过扩散模型不同扩散阶段的性质（在T较大时，主要负责控制图像的布局；在T 偏大时，主要负责控制物体的形状；在T偏小时，主要负责控制细粒度的视觉特征），在不同的扩散阶段使用不同的prompt（即替换目标token）来实现形状的多样性。具体是在中间的阶段替换为其他的token。该token通过CLIP提取特征进行相似度筛选得到。 2、根据编辑区域的定位约束目标形状以及保留背景不变。（1）将参考图像扩散过程的cross-attention矩阵作为mask，约束生成图像的扩散过程。具体来说，将self-attention map 中mask为1的部分（即标识为目标的区域）替换为参考图像的self-attentiion map，而mask为0的部分为生成图像的attention map。（2）在再小一点的采样步T1中，将self-attention map reshape为32*32*1024，然后在最后一个维度进行聚类，得到生成图像不同区域的mask，然后根据cross-attention map判断是否为需要保留的图像部分，然后这些需要保留部分由参考得到，不需要的部分进行生成。方法比较复杂，但原理都很简单。

数据：无需数据
指标：形状多样性（IoU）；CLIP-T；LPIPS（图像保留度）
硬件：未提及
开源：https://orpatashnik.github.io/local-prompt-mixing/

MultiDiffusion

JeDi