<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>P+: Extended Textual Conditioning in Text-to-Image Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2303.09522">https://arxiv.org/abs/2303.09522</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729151219/6A509567-31AF-48CB-A31C-57424C60EF88.png" style="background-color:initial;max-width:min(100%,1594px);max-height:min(878px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729151219/6A509567-31AF-48CB-A31C-57424C60EF88.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1594" height="878"> 文章提出了P+,一个文生图扩散模型中扩展的文本条件空间。该空间由去噪UNet中每一个交叉注意力层的prompt组成。文章展示了这个文本条件空间能够在图像生成过程中提供更好的解耦以及控制。进一步,作者提出了扩展的文本逆转(XTI),其将对象逆转到P+中,然后用每一层的token来表示该对象。XTI比起TI来说更具有表达性和精确性,且能够更快地收敛。该方法没有任何明显的重建能力与编辑能力的权衡,提供了更加通用的逆转结果。 文章的思想非常简单,就是在不同的交叉注意力层使用不同的token引导图像生成。对于XTI就是训练多个对象的token来表示。 文章还做了一系列分析,发现在UNet中,更加高分辨率层主要负责颜色、纹理等细粒度的特征,而低分辨率层主要负责整个对象的轮廓、结构等粗粒度的特征(图二、图三)。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729151219/0D3E5E13-F5AB-4684-9999-625F0024C6C3.png" style="background-color:initial;max-width:min(100%,1558px);max-height:min(1404px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729151219/0D3E5E13-F5AB-4684-9999-625F0024C6C3.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1558" height="1404"> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729152261/ABCA1F9D-389B-4E50-8DB9-A28989DCC37E.png" style="background-color:initial;max-width:min(100%,1212px);max-height:min(1124px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729152261/ABCA1F9D-389B-4E50-8DB9-A28989DCC37E.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1212" height="1124"> 并且,作者还利用了不同分辨率层中的交叉注意力层的对象token和外观token的注意力来进行分析,结果如下,可以发现,越是分辨率低的层,其对象token的的注意力占比越高,越是分辨率高的层,其外观token的注意力占比越高。这也符合前面的实验结果。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729152261/D2288EEB-5B1A-41C5-A967-6A18AB1ED735.png" style="background-color:initial;max-width:min(100%,1170px);max-height:min(688px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729152261/D2288EEB-5B1A-41C5-A967-6A18AB1ED735.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1170" height="688"> 使用不同的prompt从内往外逐步扩大其引导的层,实验结果表明,想要替换主要对象,引导内层很快就能替换,而替换外观需要比较多的层数替换。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729152478/02AECF17-7B1D-41B1-A23C-B9E07F2C8424.png" style="background-color:initial;max-width:min(100%,2382px);max-height:min(1200px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729152478/02AECF17-7B1D-41B1-A23C-B9E07F2C8424.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2382" height="1200"> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729152478/E1F5888F-6566-40D3-8826-356E106D617D.png" style="background-color:initial;max-width:min(100%,1214px);max-height:min(1510px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729152478/E1F5888F-6566-40D3-8826-356E106D617D.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1214" height="1510"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:测试微调(测试数据与TI一致)</li><li>指标:文本对齐度(CLIP);对象相似度(DINO)</li><li>硬件:2 A100/bs8</li><li>开源:未开源,但有人复现</li></ul>