CapHuman

对于特征提取,该方法分别使用人脸识别模型和CLIP图像编码器提取粗粒度特征和细粒度特征,随后通过映射到同一维度后拼接得到人脸特征。同时,使用3D人脸重建模型得到人脸的3D模型,可以对其进行姿势、位置、情感等编辑然后得到三种像素级别的条件(Surface Normal, Albedo, and Lambertian rendering)作为类似ControlNet中landmark条件,随后输入到类似ControlNet的CapFace模块,利用人脸特征进行注意力融合注入到预训练的SD中。 该方法同InstantID,使用了类似ControlNet的模块进行特征融合,这种融合方式感觉更加能重建人脸的细粒度的特征。
  • 数据:CelebA+BLIP进行Caption
  • 指标:ID保留度(人脸识别模型);文本图像对齐度(CLIP);头部控制准确度
  • 硬件:未提及
  • 开源:https://github.com/VamosC/CapHuman