PersonalizedResidual

文章标题：Personalized Residuals for Concept-Driven Text-to-Image Generation
文章地址：https://arxiv.org/abs/2405.12978
CVPR 2024

该文章为测试时微调方法。方法主要分为两个部分，首先是定制化部分，对于标识符，作者使用了同DreamBooth的方法（即：A photo of S* dog），对于微调，该方法通过对UNet中的TransformerBlock中的输出映射层进行LoRA微调完成定制化生成，这么来看其实作者就是将DreamBooth的训练参数换成了指定层的LoRA。第二个部分是注意力引导的局部采样方法，该方法利用p2p的结论（即Cross-attention map反映了物体的分布），作者将指定对象token的cross-attention map进行二元化得到了其在图像中的分布，然后在对象所分布的区域内使用微调过的特征，而其他区域使用原来的特征。实验结果如下：（不知道它的CLIP text是怎么算的，值这么高，一般都是0.2-0.3）

数据：测试微调，CustomConcept101（Custom Diffusion的数据集）
指标：CLIP text; CLIP Image; DINO
硬件：1 A100/bs4
开源：未开源

JeDi

DisenDiff