LLM-grounded Diffusion

  • 文章标题:LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models
  • 文章地址:https://arxiv.org/abs/2305.13655
  • TMLR 2024
这篇文章针对文生图扩散模型对于那些复杂的prompt(包含数量、空间关系等)的生成效果不好做出了改进。方法包含两个阶段,首先使用LLM对prompt进行分析,生成图片的布局等信息;第二个阶段即根据布局进行进行扩散生成。 第一阶段好理解,第二阶段具体来说就是首先对每一个对象框,联合背景,以及他们的prompt进行单独的扩散,其中通过将cross-attention map约束到该对象框中,来优化图像隐变量,从而实现整个扩散过程主要在框中进行。在生成完成后,使用目标对象token的cross-attention map作为mask,将每个时间步的隐变量进行处理,得到了只关于该对象在特定位置的隐变量。得到所有对象的隐变量后,将它们组合起来进行最终图的扩散过程,在这个过程中,还使用了所有对象的cross-attention map对该扩散过程进行约束,即将对应token的cross-attention map进行替换。最终生成目标图像。