PersonalizedResidual

该文章为测试时微调方法。 方法主要分为两个部分,首先是定制化部分,对于标识符,作者使用了同DreamBooth的方法(即:A photo of S* dog),对于微调,该方法通过对UNet中的TransformerBlock中的输出映射层进行LoRA微调完成定制化生成,这么来看其实作者就是将DreamBooth的训练参数换成了指定层的LoRA。第二个部分是注意力引导的局部采样方法,该方法利用p2p的结论(即Cross-attention map反映了物体的分布),作者将指定对象token的cross-attention map进行二元化得到了其在图像中的分布,然后在对象所分布的区域内使用微调过的特征,而其他区域使用原来的特征。 实验结果如下:(不知道它的CLIP text是怎么算的,值这么高,一般都是0.2-0.3)
  • 数据:测试微调,CustomConcept101(Custom Diffusion的数据集)
  • 指标:CLIP text; CLIP Image; DINO
  • 硬件:1 A100/bs4
  • 开源:未开源