- 文章标题:PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
- 文章地址:https://arxiv.org/abs/2312.04461
- CVPR 2024
作者提出了PhotoMaker,一种高效的定制化人脸的文生图模型,其将输入的多张人脸图片编码为多个embedding,然后利用文本prompt中对应的名词的embedding进行融合,从而得到了作者提到的Stacked ID Embedding,然后再将该embedding替换原来文本中名词对应的embedding,输入到DM中进行条件生成。作者还介绍了构造训练数据的pipeline。
- 数据:自己构造的
- 指标:CLIP-T DINO Face-Sim Face-Div
- 硬件:8 A100/bs48
- 开源: