<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2409.17920">https://arxiv.org/abs/2409.17920</a> </li><li>AAAI 2025</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1739885954/2DD7EF2A-1BA5-406B-919C-D56C821776CF.png" style="background-color:initial;max-width:min(100%,2348px);max-height:min(1358px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1739885954/2DD7EF2A-1BA5-406B-919C-D56C821776CF.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2348" height="1358"> 文章指出,由于神经网络的感受野的影响,最终生成图像的区域与隐变量对应的区域可能会有差别,在物体水平上可能会对应不上,因此作者就提出了一个基于物体相关性估计的特征融合方式。首先使用物体的文本特征与隐变量进行相似度计算(隐变量作为Q,文本特征作为K,计算相似度后进行转置),然后基于该相似度作为权重将多张参考图像(多对象)的特征进行融合,同IP-Adapter的方式。 同时,由于特征空间的不一致,仅通过这种方式增强IP-Adapter的效果不如专用于多对象定制的方法。文章对IP-Adapter进行了训练,使用上述融合方式。数据集是同subject-diffusion进行构造。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:自己构造</li><li>指标:CLIP-I; CLIP-T; DINO</li><li>硬件:8 PPU</li><li>开源:<a href="https://github.com/hqhQAQ/MIP-Adapter">https://github.com/hqhQAQ/MIP-Adapter</a> </li></ul>