<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Attention Calibration for Disentangled Text-to-Image Personalization</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2403.18551">https://arxiv.org/abs/2403.18551</a> </li><li>CVPR 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1733132004/1C58F3A3-A0FA-4416-BF71-3F4626425DDB.png" style="background-color:initial;max-width:min(100%,1196px);max-height:min(1354px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1733132004/1C58F3A3-A0FA-4416-BF71-3F4626425DDB.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1196" height="1354"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul> 感觉idea很容易想到 该文章的任务是通过利用包含两个对象的单张图,对文生图模型进行训练,从而实现多对象定制。在这个任务中,因为不同的对象token的attention map对应其在生成图像的结构,因此文章就对这些attention map进行一些校准,从而实现了准确的单张图的多对象定制。 具体来说,包含了以下3个约束:1、新增的修饰token的attention map要与其类token的对齐(这里其实会有一个问题,就是隐特征对所有token的注意力之和为固定的1,这样对齐两个attention map感觉很奇怪,文章中为了解决这种token竞争,对attention map使用了高斯滤波缓解了这种问题,但没有真正解决);2、不同类别的token的attention map进行分离,减少类间干扰,尽可能减少重合部分,但这样可能会导致区域减小,然后用重合部分除以了合并部分;3、通过使用2,这样一来可能会导致区域增大,从而两类的区域比例失调,因此提出了抑制方法,即将attention map对应位置自己相乘,小的部分会更小,从而实现了类似于突出的效果。 值得注意,这种微调的方法需要有正则化在,为了避免过拟合。该文章使用LAION-5B中同caption的图像进行共同训练,同DreamBooth。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1731656949/240CDA8C-C6A2-4BEF-AFAD-96024F683AF5.png" style="background-color:initial;max-width:min(100%,2354px);max-height:min(1156px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1731656949/240CDA8C-C6A2-4BEF-AFAD-96024F683AF5.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2354" height="1156"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:测试时微调(自建的10类数据集)</li><li>指标:图像对齐度;文本对齐度。都用CLIP</li><li>硬件:未提及</li><li>开源:<a href="https://github.com/Monalissaa/DisenDiff">https://github.com/Monalissaa/DisenDiff</a> </li></ul>