eDiff-I

文章指出在文生图的扩散过程中,模型在不同的阶段有着不一样的行为:在采样初期,图像生成更依赖于文本条件;然后到后期,文本条件几乎被忽视,模型更关注生成高质量的视觉特征。 因此作者就想到在不同的采样阶段使用不同的专家模型来进行去噪,从而使模型在不增加额外推理计算量的同时增加生成图像的质量。