PhotoMaker

作者提出了PhotoMaker,一种高效的定制化人脸的文生图模型,其将输入的多张人脸图片编码为多个embedding,然后利用文本prompt中对应的名词的embedding进行融合,从而得到了作者提到的Stacked ID Embedding,然后再将该embedding替换原来文本中名词对应的embedding,输入到DM中进行条件生成。作者还介绍了构造训练数据的pipeline。
  • 数据:自己构造的
  • 指标:CLIP-T DINO Face-Sim Face-Div
  • 硬件:8 A100/bs48
  • 开源: