MIP-Adapter | lc's space

文章标题：Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation
文章地址：https://arxiv.org/abs/2409.17920
AAAI 2025

文章指出，由于神经网络的感受野的影响，最终生成图像的区域与隐变量对应的区域可能会有差别，在物体水平上可能会对应不上，因此作者就提出了一个基于物体相关性估计的特征融合方式。首先使用物体的文本特征与隐变量进行相似度计算（隐变量作为Q，文本特征作为K，计算相似度后进行转置），然后基于该相似度作为权重将多张参考图像（多对象）的特征进行融合，同IP-Adapter的方式。同时，由于特征空间的不一致，仅通过这种方式增强IP-Adapter的效果不如专用于多对象定制的方法。文章对IP-Adapter进行了训练，使用上述融合方式。数据集是同subject-diffusion进行构造。

数据：自己构造
指标：CLIP-I; CLIP-T; DINO
硬件：8 PPU
开源：https://github.com/hqhQAQ/MIP-Adapter

VMC

TS-LLaVA