<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Localizing Object-level Shape Variations with Text-to-Image Diffusion Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2303.11306">https://arxiv.org/abs/2303.11306</a> </li><li>ICCV 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1733841722/F7934B96-D4BC-4C4E-B33E-5FE71E28EDC5.png" style="background-color:initial;max-width:min(100%,2340px);max-height:min(1048px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1733841722/F7934B96-D4BC-4C4E-B33E-5FE71E28EDC5.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2340" height="1048"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul> 该方法的目标就是生成一系列描述同一目标但多种形状的图像。具体来说文章提出了两点来实现该目标: 1、通过扩散模型不同扩散阶段的性质(在T较大时,主要负责控制图像的布局;在T 偏大时,主要负责控制物体的形状;在T偏小时,主要负责控制细粒度的视觉特征),在不同的扩散阶段使用不同的prompt(即替换目标token)来实现形状的多样性。具体是在中间的阶段替换为其他的token。该token通过CLIP提取特征进行相似度筛选得到。 2、根据编辑区域的定位约束目标形状以及保留背景不变。(1)将参考图像扩散过程的cross-attention矩阵作为mask,约束生成图像的扩散过程。具体来说,将self-attention map 中mask为1的部分(即标识为目标的区域)替换为参考图像的self-attentiion map,而mask为0的部分为生成图像的attention map。(2)在再小一点的采样步T1中,将self-attention map reshape为32*32*1024,然后在最后一个维度进行聚类,得到生成图像不同区域的mask,然后根据cross-attention map判断是否为需要保留的图像部分,然后这些需要保留部分由参考得到,不需要的部分进行生成。 方法比较复杂,但原理都很简单。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1733843151/4E853F8B-EC86-4585-8009-281EE2C4C2D0.png" style="background-color:initial;max-width:min(100%,1176px);max-height:min(1554px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1733843151/4E853F8B-EC86-4585-8009-281EE2C4C2D0.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1176" height="1554"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需数据</li><li><span style="font-family: '.PingFangUITextSC-Regular'">指标:形状多样性(</span>IoU<span style="font-family: '.PingFangUITextSC-Regular'">);</span>CLIP-T<span style="font-family: '.PingFangUITextSC-Regular'">;</span>LPIPS(图像保留度)</li><li>硬件:未提及</li><li>开源:<a href="https://orpatashnik.github.io/local-prompt-mixing/">https://orpatashnik.github.io/local-prompt-mixing/</a> </li></ul>