Face0

文章提出了Face0,一种全新的将人脸作为条件的即时文生图方法,在采样时无需任何优化过程,例如微调或反转。 作者使用数据中的人脸embedding对数据集进行增强,在模型训练后,模型推理时间跟原本的模型一样,并且能够根据用户提供的人脸图像进行输出。具体来说,模型先对图片的人脸进行识别,然后经过特征提取网络提取人脸embedding,随后将该embedding映射到CLIP空间中,嵌入到文本prompt的最后三个token中,输入模型进行生成。模型思路非常简单,主要是运用了人脸特征提取特征。 文章还提到了局限性,首先是人脸的特征可能包含了固定的姿势和表达情感,如何解耦该部分内容需要解决,其次是该方法不支持多个人脸。
  • 数据:LAION(筛选美学评分大于5.5,包含人脸且超过20像素)
  • 指标:文本对齐度(CLIP),人脸对齐度(CLIP)
  • 硬件:64 TPU-v4s/bs256
  • 开源:未开源