<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>ConsistentID : Portrait Generation with Multimodal Fine-Grained Identity Preserving</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2404.16771">https://arxiv.org/abs/2404.16771</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729674336/98A14A60-BD5D-4C57-A421-7FACF18A8EFD.png" style="background-color:initial;max-width:min(100%,2470px);max-height:min(1748px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729674336/98A14A60-BD5D-4C57-A421-7FACF18A8EFD.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2470" height="1748"> 方法相对复杂,感觉没什么学习的价值。 其基本思想就是增加了一个细粒度的特征融合,具体来说,先使用LLaVA对参考人脸图像进行细粒度的描述,利用该描述扩充原来的prompt,然后将描述中的人脸区域token(eyes、mouth、nose等)进行embedding替换,替换成相应区域的图像经过编码后的embedding。从而使prompt包含了更多细粒度的人脸区域的信息。同时还结合了IP-Adapter的方式,将人脸整体的特征通过新的交叉注意力矩阵引导图像生成。此外,对于不同人脸区域的token还使用了mask去约束其cross-attention map。 这种通过可解释的方法引入细粒度信息感觉太复杂了,一个是模型不好学,一个是得到的结果肯定是次优的。 如何简单有效地引入细粒度的特征呢? <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729675147/458B0592-B2BA-48AE-99E3-42571E872BF6.png" style="background-color:initial;max-width:min(100%,2436px);max-height:min(994px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729675147/458B0592-B2BA-48AE-99E3-42571E872BF6.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2436" height="994"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:自己构建了一个细粒度人脸数据集</li><li>指标:CLIP-I;CLIP-T;DINO;人脸相似度</li><li>硬件:8 3090/bs16</li><li>开源:<a href="https://github.com/JackAILab/ConsistentID">https://github.com/JackAILab/ConsistentID</a> </li></ul>