PhotoMaker | lc's space

文章标题：PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding
文章地址：https://arxiv.org/abs/2312.04461
CVPR 2024

作者提出了PhotoMaker，一种高效的定制化人脸的文生图模型，其将输入的多张人脸图片编码为多个embedding，然后利用文本prompt中对应的名词的embedding进行融合，从而得到了作者提到的Stacked ID Embedding，然后再将该embedding替换原来文本中名词对应的embedding，输入到DM中进行条件生成。作者还介绍了构造训练数据的pipeline。

数据：自己构造的
指标：CLIP-T DINO Face-Sim Face-Div
硬件：8 A100/bs48
开源：

https://github.com/TencentARC/PhotoMaker

InstantID

HuBERT