ConsistentID | lc's space

文章标题：ConsistentID : Portrait Generation with Multimodal Fine-Grained Identity Preserving
文章地址：https://arxiv.org/abs/2404.16771
arxiv

方法相对复杂，感觉没什么学习的价值。其基本思想就是增加了一个细粒度的特征融合，具体来说，先使用LLaVA对参考人脸图像进行细粒度的描述，利用该描述扩充原来的prompt，然后将描述中的人脸区域token（eyes、mouth、nose等）进行embedding替换，替换成相应区域的图像经过编码后的embedding。从而使prompt包含了更多细粒度的人脸区域的信息。同时还结合了IP-Adapter的方式，将人脸整体的特征通过新的交叉注意力矩阵引导图像生成。此外，对于不同人脸区域的token还使用了mask去约束其cross-attention map。这种通过可解释的方法引入细粒度信息感觉太复杂了，一个是模型不好学，一个是得到的结果肯定是次优的。如何简单有效地引入细粒度的特征呢？

数据：自己构建了一个细粒度人脸数据集
指标：CLIP-I;CLIP-T;DINO;人脸相似度
硬件：8 3090/bs16
开源：https://github.com/JackAILab/ConsistentID

FlashFace

CapHuman