ConsistentID

方法相对复杂,感觉没什么学习的价值。 其基本思想就是增加了一个细粒度的特征融合,具体来说,先使用LLaVA对参考人脸图像进行细粒度的描述,利用该描述扩充原来的prompt,然后将描述中的人脸区域token(eyes、mouth、nose等)进行embedding替换,替换成相应区域的图像经过编码后的embedding。从而使prompt包含了更多细粒度的人脸区域的信息。同时还结合了IP-Adapter的方式,将人脸整体的特征通过新的交叉注意力矩阵引导图像生成。此外,对于不同人脸区域的token还使用了mask去约束其cross-attention map。 这种通过可解释的方法引入细粒度信息感觉太复杂了,一个是模型不好学,一个是得到的结果肯定是次优的。 如何简单有效地引入细粒度的特征呢?