DisenBooth

  • 文章标题:DISENBOOTH: IDENTITY-PRESERVING DISENTANGLED TUNING FOR SUBJECT-DRIVEN TEXT-TO-IMAGE GENERATION
  • 文章地址:https://arxiv.org/abs/2305.03374
  • ICLR 2024
当前的定制化文生图将ID相关和无关的信息全部耦合进了隐空间,这会导致1)ID无关的信息(姿势,背景等)影响文生图的过程,使其与文本对齐有差异或者缺乏多样性;2)ID相关的信息在文生图过程中可能不能完全保留下来,使得生成的图像与参考的对象有差异。因此文章提出了DisenBooth,一个通过解耦微调将ID信息提取出来用于特定对象文生图的框架。 具体来说,模型通过文本编码器构造目标ID的embedding,通过图像编码器构造ID无关的embedding,模型使用了三个优化目标来达成目的,首先是联合两种embedding来重建图像,然后是只使用ID相关embedding指导去噪过程来重建图像(weak denoise),最后一个是最小化两种embedding的余弦距离。如此一来,模型就能学习到ID相关的信息和无关的信息。
  • 数据:该方法属于test-time tuning,测试的数据使用的是DreamBench
  • 指标:主体保留度(DINO);prompt对齐度(CLIP);人工评测
  • 硬件:1 V100/bs1
  • 开源:https://github.com/forchchch/DisenBooth