MIP-Adapter

文章指出,由于神经网络的感受野的影响,最终生成图像的区域与隐变量对应的区域可能会有差别,在物体水平上可能会对应不上,因此作者就提出了一个基于物体相关性估计的特征融合方式。首先使用物体的文本特征与隐变量进行相似度计算(隐变量作为Q,文本特征作为K,计算相似度后进行转置),然后基于该相似度作为权重将多张参考图像(多对象)的特征进行融合,同IP-Adapter的方式。 同时,由于特征空间的不一致,仅通过这种方式增强IP-Adapter的效果不如专用于多对象定制的方法。文章对IP-Adapter进行了训练,使用上述融合方式。数据集是同subject-diffusion进行构造。