<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2211.12572">https://arxiv.org/abs/2211.12572</a> </li><li>CVPR 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734517506/08F6C66F-2D94-4342-9C05-E689720185E7.png" style="background-color:initial;max-width:min(100%,2350px);max-height:min(1090px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734517506/08F6C66F-2D94-4342-9C05-E689720185E7.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2350" height="1090"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul> 文章任务为利用文本对真实图像进行编辑,且其布局不变。 作者通过对扩散模型内部的特征表示进行分析,发现其decoder部分中间层的空间特征能够反映不同的语义区域,并且其self-attention矩阵也有类似的特点(这里有点问题),因此,将真实图像进行DDIM Inversion后(无文本引导),将其中间特征和SA注入到编辑文本引导的扩散过程中(特定时间步,特定层),实现在保证真实图像语义布局不变的情况下,对图像进行满足文本的编辑。 这篇文章同时也反映出,SA map也与图像的布局息息相关。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734518107/CDC887F3-1CF5-4452-B5F6-0D176479902A.png" style="background-color:initial;max-width:min(100%,2348px);max-height:min(1096px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734518107/CDC887F3-1CF5-4452-B5F6-0D176479902A.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2348" height="1096"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li>指标:CLIP-T(判断编辑图像与文本对齐度);DINO(判断与原图结构相似度)</li><li>硬件:未提及</li><li>开源:<a href="https://github.com/MichalGeyer/plug-and-play">https://github.com/MichalGeyer/plug-and-play</a> </li></ul>