MultiDiffusion

文章提出了一种新的文生图模型控制的方法(主要是全景图的生成或区域文生图),该方法无需对原模型进行任何调整或训练。方法也非常简单,提出了一个新的生成过程,基于一些约束,将多个扩散过程结合起来。 对于全景图的生成,就是将一个全景噪声分割成几部分,然后分别进行扩散,这些不同的部分可能会有重叠的情况,将其进行加权求和即可。
  • 数据:无需训练
  • 指标:对于全景图生成:FID(全景生成图像与原文生图模型生成的图像之间计算); CLIP-Score;CLIP-aesthetic(美学评分);对于区域条件生成:IoU
  • 硬件:未提及
  • 开源:https://multidiffusion.github.io