<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Personalized Residuals for Concept-Driven Text-to-Image Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2405.12978">https://arxiv.org/abs/2405.12978</a> </li><li>CVPR 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1733210171/DBC3F2D3-D0C5-423C-B5DC-572285453491.png" style="background-color:initial;max-width:min(100%,2350px);max-height:min(1222px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1733210171/DBC3F2D3-D0C5-423C-B5DC-572285453491.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2350" height="1222"> 该文章为测试时微调方法。 方法主要分为两个部分,首先是定制化部分,对于标识符,作者使用了同DreamBooth的方法(即:A photo of S* dog),对于微调,该方法通过对UNet中的TransformerBlock中的输出映射层进行LoRA微调完成定制化生成,这么来看其实作者就是将DreamBooth的训练参数换成了指定层的LoRA。第二个部分是注意力引导的局部采样方法,该方法利用p2p的结论(即Cross-attention map反映了物体的分布),作者将指定对象token的cross-attention map进行二元化得到了其在图像中的分布,然后在对象所分布的区域内使用微调过的特征,而其他区域使用原来的特征。 实验结果如下:(不知道它的CLIP text是怎么算的,值这么高,一般都是0.2-0.3) <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1733213051/12A7B3A4-3AEF-49BA-9E70-1915F31303A3.png" style="background-color:initial;max-width:min(100%,1190px);max-height:min(708px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1733213051/12A7B3A4-3AEF-49BA-9E70-1915F31303A3.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1190" height="708"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:测试微调,CustomConcept101(Custom Diffusion的数据集)</li><li>指标:CLIP text; CLIP Image; DINO</li><li>硬件:1 A100/bs4</li><li>开源:未开源</li></ul>