<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>FreeInit: Bridging Initialization Gap in Video Diffusion Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2312.07537">https://arxiv.org/abs/2312.07537</a> </li><li>ECCV 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1753978968/D232DE4C-FA86-4F74-B530-BBFB0180A8CD.png" style="background-color:initial;max-width:min(100%,1742px);max-height:min(932px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1753978968/D232DE4C-FA86-4F74-B530-BBFB0180A8CD.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1742" height="932"> 作者发现扩散模型的训练和推理的初始化噪声存在差异,导致生成视频质量下降,具体来说就是在训练时,DDPM的前向过程生成的噪声保留了很多低频信息,高频信息被噪声化,而低频信息很少被扰动;而在推理时,初始噪声是从标准正态分布得到的,因此存在差异。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1753979360/36CC2A74-AF70-4CE5-AE78-F7ED5B05C22A.png" style="background-color:initial;max-width:min(100%,1828px);max-height:min(782px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1753979360/36CC2A74-AF70-4CE5-AE78-F7ED5B05C22A.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1828" height="782"> 作者为了解决该问题,提出了一个无需训练的框架,提升生成视频的质量。具体来说就是先进行去噪,然后再进行加噪,利用傅立叶变换提取低频信息,而高频信息从标准正态分布中采样得到,结合得到了新的初始噪声,重复该过程,即可得到高质量视频。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li>指标:DINO;FVD;MS(Motion Smoothness);DD(Dynamic Degree)</li><li>硬件:不重要</li><li>开源:<a href="https://tianxingwu.github.io/pages/FreeInit/">https://tianxingwu.github.io/pages/FreeInit/</a> </li></ul>