<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>MagiCapture: High-Resolution Multi-Concept Portrait Customization</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2309.06895">https://arxiv.org/abs/2309.06895</a> </li><li>AAAI 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1728046327/C4F1D7B7-4246-4DF7-A71E-110A787638F9.png" style="background-color:initial;max-width:min(100%,2392px);max-height:min(1422px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1728046327/C4F1D7B7-4246-4DF7-A71E-110A787638F9.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2392" height="1422"> 用于给定几张自拍,选定一种风格,生成特定人在某种风格的图像。 其混合提示的损失设计巧妙。 现有的定制化文生图模型的结果都不是很真实,不适合商业用途,特别是人物肖像的生成,只要有一点点不自然,人们就能捕捉到。为了解决该问题,文章提出了MagiCapture,一种只需要几张目标人物的图像和参考风格的图像就能够生成高分辨率的人物肖像。其中要解决的最大的问题是当两种概念混合在一起时生成效果不好,因为没有混合训练过,倘若要加入混合提示的训练,其缺少了GT。为了解决该问题,作者提出了一种新的注意力重新聚焦损失,加上辅助先验损失,两者都促进了这种弱监督的学习环境中的稳健学习。并且还可以使用图像的后处理进行超分辨率和人脸重建生成更清晰的图像。 具体来说,模型先对两个概念分别训练,使用lora。然后在进行混合提示训练,在这个过程中,由于缺少GT,模型将人脸和非人脸部分分开计算损失,非人脸部分将参考图像作为GT,人脸部分则将隐变量预测原图像x0,并检测人脸使用人脸识别模型提取特征,与源目标的特征计算余弦距离。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1728046957/F9F388AF-9A71-4331-9E4F-FD28B1768ABB.png" style="background-color:initial;max-width:min(100%,2440px);max-height:min(1290px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1728046957/F9F388AF-9A71-4331-9E4F-FD28B1768ABB.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2440" height="1290"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:测试时微调,测试时用了VGGFace</li><li>指标:人脸相似度;风格相似度(masked CLIP);美学分数;人工</li><li>硬件:1 RTX3090/bs1</li><li>开源:未开源</li></ul>