FreeInit | lc's space

作者发现扩散模型的训练和推理的初始化噪声存在差异，导致生成视频质量下降，具体来说就是在训练时，DDPM的前向过程生成的噪声保留了很多低频信息，高频信息被噪声化，而低频信息很少被扰动；而在推理时，初始噪声是从标准正态分布得到的，因此存在差异。

作者为了解决该问题，提出了一个无需训练的框架，提升生成视频的质量。具体来说就是先进行去噪，然后再进行加噪，利用傅立叶变换提取低频信息，而高频信息从标准正态分布中采样得到，结合得到了新的初始噪声，重复该过程，即可得到高质量视频。