<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>InstantID: Zero-shot identity-preserving generation in seconds</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2401.07519">https://arxiv.org/abs/2401.07519</a> </li><li>技术报告</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1723729364/75784811-6C8B-4F00-B2E9-06420E10ED57.png" style="background-color:initial;max-width:min(100%,1722px);max-height:min(1786px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1723729364/75784811-6C8B-4F00-B2E9-06420E10ED57.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1722" height="1786"> 作者提出了InstantID,一种全新的ID一致的预训练文生图模型的调整方法。其在相同基础模型的模型下具有即插即用的特性。 模型首先提取人脸的特征(使用专门针对人脸的模型而非CLIP,因为作者认为CLIP提取的特征具有很多人脸无关的信息,无法关注到人脸的细节特征),之后映射到文本特征空间,之后像IP-Adapter一样使用额外的交叉注意力将人脸特征引入扩散模型中。并且,作者仿照ControlNet,构造了一个IdentityNet,将人脸的位置信息和前面提取的人脸特征作为输入指导图片的生成。整个模型中,只有新加入的模块需要训练,文生图的基础模型不需要训练。 <div style="text-align: justify"><ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:LAION-Face + 额外数据集</li><li>指标:更多是直观比较,无定量分析</li><li>硬件:48 H100/bs2</li><li>开源:</li></ul></div> <div style="text-align: justify"><ul class="dashed" data-apple-notes-indent-amount="0"><li><a href="https://github.com/instantX-research/InstantID">https://github.com/instantX-research/InstantID</a></li></ul></div> <div style="text-align: justify"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul></div>