JeDi

  • 文章标题:JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation
  • 文章地址:https://arxiv.org/abs/2407.06187
  • CVPR 2024
该方法需要对整个模型进行预训练。 文章对于定制化生成提供了一种全新的思路,就是在U-Net中self-attention的计算中,将单图像扩展到了多图像,具体就是将原来的单图像进行self-attention的计算改成了一个set中多张图像进行self-attention(到cross-attention就分开),通过这种方法,使模型能够在其他的图像中获取信息。这种模式就很适合定制化生成的任务设置。 由于需要赋予模型这种跨图像感知的能力,需要对模型进行预训练,那么数据就是一个问题。文章首先使用大语言模型生成大量物体的prompt,然后以特定的prompt输入到现有的文生图模型进行同一对象的多张图像生成(大杂烩),这种现有文生图模型的内在能力有限,其背景多样性不高,作者通过对这些数据进行分割、重新添加背景等后处理得到了多样性的背景。从而得到了一个大规模数据集。