CAFE

这种idea的硬件条件实验室不够。 文章提出了一种交互式定制化图像生成的方法CAFE,该方法结构如图,基于MLLM,首先将prompt和图像embedding经过MLLM后,得到文本输出和图像部分的embedding,然后使用该embedding和原图embedding共同引导图像生成(同IP-Adapter),值得注意的是这里的DM的文本条件被去掉了。 在训练时,H与目标图像的CLIP Embedding对齐,从而可以使MLLM和DM分开训练,在DM训练时,使用目标的CLIP Embedding和原图的embedding引导进行训练。 该方法可以支持用户以较模糊的方式来定制化图像生成,而不仅仅用确定的prompt引导。
  • 数据:自己构建(1M四元组)
  • 指标:DINO;CLIP-I;CLIP-T;ID(人脸)
  • 硬件:2W A100 GPU Hours
  • 未开源