FreeInit

作者发现扩散模型的训练和推理的初始化噪声存在差异,导致生成视频质量下降,具体来说就是在训练时,DDPM的前向过程生成的噪声保留了很多低频信息,高频信息被噪声化,而低频信息很少被扰动;而在推理时,初始噪声是从标准正态分布得到的,因此存在差异。 作者为了解决该问题,提出了一个无需训练的框架,提升生成视频的质量。具体来说就是先进行去噪,然后再进行加噪,利用傅立叶变换提取低频信息,而高频信息从标准正态分布中采样得到,结合得到了新的初始噪声,重复该过程,即可得到高质量视频。