CosmicMan

文章提出了CosmicMan,一个专门用于高质量人类文生图的基础模型。当前的通用文生图模型在人类图片生成中存在很多问题,因此该文章提出了一个专门用于人类的图像生成的基础模型。 对于数据收集,文章提出了一个全新的训练数据生产范式Annotate Anyone,他可以源源不断地生产高质量的数据以及标注。基于此,文章构造了一个大规模的高质量的人类图片数据集CosmicMan-HQ 1.0,包含了6M张高质量真实人类图片,平均分辨率为1488*1255,并且拥有115M个多粒度的属性文本描述。 对于模型训练,文章基于SD,并采用了Daring训练策略,该训练策略利用交叉注意力使得不同的文本描述聚焦于特定的区域,从而解决图像与文本不对齐的问题。 具体看一下训练部分。 他的主要思想就是利用人体结构将caption分组,每一组对应一个人体结构,然后将该结构的mask作为该组caption的交叉注意力图的监督进行学习,从而使特定的caption对特定的结构进行引导生成,因此在传统的重建损失上还使用到了提出的HOLA损失: 考虑可以在此基础上加人脸部分,然后将人脸信息融合引导图像生成,完成人脸定制的功能。
  • 数据:CosmicMan-HQ 1.0
  • 指标:FID;(文本图像对齐度)CLIP;细粒度文本图像匹配分数;User Study
  • 硬件:32 A100/bs64
  • 开源:https://cosmicman-cvpr2024.github.io