eDiff-I | lc's space

文章标题：eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers
文章地址：https://arxiv.org/abs/2211.01324
arxiv

文章指出在文生图的扩散过程中，模型在不同的阶段有着不一样的行为：在采样初期，图像生成更依赖于文本条件；然后到后期，文本条件几乎被忽视，模型更关注生成高质量的视觉特征。因此作者就想到在不同的采样阶段使用不同的专家模型来进行去噪，从而使模型在不增加额外推理计算量的同时增加生成图像的质量。