DisenDiff | lc's space

文章标题：Attention Calibration for Disentangled Text-to-Image Personalization
文章地址：https://arxiv.org/abs/2403.18551
CVPR 2024

感觉idea很容易想到该文章的任务是通过利用包含两个对象的单张图，对文生图模型进行训练，从而实现多对象定制。在这个任务中，因为不同的对象token的attention map对应其在生成图像的结构，因此文章就对这些attention map进行一些校准，从而实现了准确的单张图的多对象定制。具体来说，包含了以下3个约束：1、新增的修饰token的attention map要与其类token的对齐（这里其实会有一个问题，就是隐特征对所有token的注意力之和为固定的1，这样对齐两个attention map感觉很奇怪，文章中为了解决这种token竞争，对attention map使用了高斯滤波缓解了这种问题，但没有真正解决）；2、不同类别的token的attention map进行分离，减少类间干扰，尽可能减少重合部分，但这样可能会导致区域减小，然后用重合部分除以了合并部分；3、通过使用2，这样一来可能会导致区域增大，从而两类的区域比例失调，因此提出了抑制方法，即将attention map对应位置自己相乘，小的部分会更小，从而实现了类似于突出的效果。值得注意，这种微调的方法需要有正则化在，为了避免过拟合。该文章使用LAION-5B中同caption的图像进行共同训练，同DreamBooth。

数据：测试时微调（自建的10类数据集）
指标：图像对齐度；文本对齐度。都用CLIP
硬件：未提及
开源：https://github.com/Monalissaa/DisenDiff

PersonalizedResidual

CrossInitialization