DisenDiff

感觉idea很容易想到 该文章的任务是通过利用包含两个对象的单张图,对文生图模型进行训练,从而实现多对象定制。在这个任务中,因为不同的对象token的attention map对应其在生成图像的结构,因此文章就对这些attention map进行一些校准,从而实现了准确的单张图的多对象定制。 具体来说,包含了以下3个约束:1、新增的修饰token的attention map要与其类token的对齐(这里其实会有一个问题,就是隐特征对所有token的注意力之和为固定的1,这样对齐两个attention map感觉很奇怪,文章中为了解决这种token竞争,对attention map使用了高斯滤波缓解了这种问题,但没有真正解决);2、不同类别的token的attention map进行分离,减少类间干扰,尽可能减少重合部分,但这样可能会导致区域减小,然后用重合部分除以了合并部分;3、通过使用2,这样一来可能会导致区域增大,从而两类的区域比例失调,因此提出了抑制方法,即将attention map对应位置自己相乘,小的部分会更小,从而实现了类似于突出的效果。 值得注意,这种微调的方法需要有正则化在,为了避免过拟合。该文章使用LAION-5B中同caption的图像进行共同训练,同DreamBooth。