CAFE | lc's space

文章标题：Customization Assistant for Text-to-image Generation
文章地址：https://arxiv.org/abs/2312.03045
CVPR 2024

这种idea的硬件条件实验室不够。文章提出了一种交互式定制化图像生成的方法CAFE，该方法结构如图，基于MLLM，首先将prompt和图像embedding经过MLLM后，得到文本输出和图像部分的embedding，然后使用该embedding和原图embedding共同引导图像生成（同IP-Adapter），值得注意的是这里的DM的文本条件被去掉了。在训练时，H与目标图像的CLIP Embedding对齐，从而可以使MLLM和DM分开训练，在DM训练时，使用目标的CLIP Embedding和原图的embedding引导进行训练。该方法可以支持用户以较模糊的方式来定制化图像生成，而不仅仅用确定的prompt引导。

数据：自己构建（1M四元组）
指标：DINO;CLIP-I;CLIP-T;ID(人脸)
硬件：2W A100 GPU Hours
未开源

Cones2

Cones