CosmicMan | lc's space

文章标题：CosmicMan: A Text-to-Image Foundation Model for Humans
文章地址：https://arxiv.org/abs/2404.01294
CVPR 2024

文章提出了CosmicMan，一个专门用于高质量人类文生图的基础模型。当前的通用文生图模型在人类图片生成中存在很多问题，因此该文章提出了一个专门用于人类的图像生成的基础模型。对于数据收集，文章提出了一个全新的训练数据生产范式Annotate Anyone，他可以源源不断地生产高质量的数据以及标注。基于此，文章构造了一个大规模的高质量的人类图片数据集CosmicMan-HQ 1.0，包含了6M张高质量真实人类图片，平均分辨率为1488*1255，并且拥有115M个多粒度的属性文本描述。对于模型训练，文章基于SD，并采用了Daring训练策略，该训练策略利用交叉注意力使得不同的文本描述聚焦于特定的区域，从而解决图像与文本不对齐的问题。具体看一下训练部分。

他的主要思想就是利用人体结构将caption分组，每一组对应一个人体结构，然后将该结构的mask作为该组caption的交叉注意力图的监督进行学习，从而使特定的caption对特定的结构进行引导生成，因此在传统的重建损失上还使用到了提出的HOLA损失：

考虑可以在此基础上加人脸部分，然后将人脸信息融合引导图像生成，完成人脸定制的功能。

数据：CosmicMan-HQ 1.0
指标：FID；（文本图像对齐度）CLIP；细粒度文本图像匹配分数；User Study
硬件：32 A100/bs64
开源：https://cosmicman-cvpr2024.github.io

PreciseControl

FlashFace