CapHuman | lc's space

文章标题：CapHuman: Capture Your Moments in Parallel Universes
文章地址：https://arxiv.org/abs/2402.00627
CVPR 2024

对于特征提取，该方法分别使用人脸识别模型和CLIP图像编码器提取粗粒度特征和细粒度特征，随后通过映射到同一维度后拼接得到人脸特征。同时，使用3D人脸重建模型得到人脸的3D模型，可以对其进行姿势、位置、情感等编辑然后得到三种像素级别的条件（Surface Normal, Albedo, and Lambertian rendering）作为类似ControlNet中landmark条件，随后输入到类似ControlNet的CapFace模块，利用人脸特征进行注意力融合注入到预训练的SD中。该方法同InstantID，使用了类似ControlNet的模块进行特征融合，这种融合方式感觉更加能重建人脸的细粒度的特征。

数据：CelebA+BLIP进行Caption
指标：ID保留度（人脸识别模型）；文本图像对齐度（CLIP）；头部控制准确度
硬件：未提及
开源：https://github.com/VamosC/CapHuman

ConsistentID

Face2Diffusion