<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>CosmicMan: A Text-to-Image Foundation Model for Humans</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2404.01294">https://arxiv.org/abs/2404.01294</a> </li><li>CVPR 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1730085586/898D1D41-3CD5-48F8-9A4A-0A70630E669B.png" style="background-color:initial;max-width:min(100%,2336px);max-height:min(1322px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1730085586/898D1D41-3CD5-48F8-9A4A-0A70630E669B.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2336" height="1322"> 文章提出了CosmicMan,一个专门用于高质量人类文生图的基础模型。当前的通用文生图模型在人类图片生成中存在很多问题,因此该文章提出了一个专门用于人类的图像生成的基础模型。 对于数据收集,文章提出了一个全新的训练数据生产范式Annotate Anyone,他可以源源不断地生产高质量的数据以及标注。基于此,文章构造了一个大规模的高质量的人类图片数据集CosmicMan-HQ 1.0,包含了6M张高质量真实人类图片,平均分辨率为1488*1255,并且拥有115M个多粒度的属性文本描述。 对于模型训练,文章基于SD,并采用了Daring训练策略,该训练策略利用交叉注意力使得不同的文本描述聚焦于特定的区域,从而解决图像与文本不对齐的问题。 具体看一下训练部分。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1730102937/4DBC2173-F7DE-4596-8EB0-C0BD418F6D4F.png" style="background-color:initial;max-width:min(100%,1192px);max-height:min(1214px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1730102937/4DBC2173-F7DE-4596-8EB0-C0BD418F6D4F.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1192" height="1214"> 他的主要思想就是利用人体结构将caption分组,每一组对应一个人体结构,然后将该结构的mask作为该组caption的交叉注意力图的监督进行学习,从而使特定的caption对特定的结构进行引导生成,因此在传统的重建损失上还使用到了提出的HOLA损失: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1730103539/92931AAE-97DE-46A3-84F9-3C4EFB16684A.png" style="background-color:initial;max-width:min(100%,1448px);max-height:min(270px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1730103539/92931AAE-97DE-46A3-84F9-3C4EFB16684A.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1448" height="270"> 考虑可以在此基础上加人脸部分,然后将人脸信息融合引导图像生成,完成人脸定制的功能。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:CosmicMan-HQ 1.0</li><li>指标:FID;(文本图像对齐度)CLIP;细粒度文本图像匹配分数;User Study</li><li>硬件:32 A100/bs64</li><li>开源:<a href="https://cosmicman-cvpr2024.github.io">https://cosmicman-cvpr2024.github.io</a> </li></ul>