<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>DIFFUSION MODELS ALREADY HAVE A SEMANTIC LATENT SPACE</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2210.10960">https://arxiv.org/abs/2210.10960</a> </li><li>ICLR 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724383402/8CCB0421-D4BE-4ED0-9CD8-3E6B94E3572C.png" style="background-color:initial;max-width:min(100%,1964px);max-height:min(726px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724383402/8CCB0421-D4BE-4ED0-9CD8-3E6B94E3572C.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1964" height="726"> 作者提出了一个非对称的扩散模型的反向过程,得到了预训练扩散模型的语义空间(h-soace),具有很好的图像编辑的特性:同质性、线性、鲁棒性、连续性等等。可以对某个特性(如微笑)训练一个轻量网络f,通过该网络对该特性进行调整(笑或不笑)。 文章将去噪过程形式化为: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724210011/60C2FB90-55B0-4C66-87DA-ED15E44EBA96.png" style="background-color:initial;max-width:min(100%,1046px);max-height:min(146px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724210011/60C2FB90-55B0-4C66-87DA-ED15E44EBA96.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1046" height="146"> 要想在语义空间对图像的生成进行编辑,其中一个方法为对预测的噪声ε进行偏移,但这无法对生成图像造成改变,因为噪声对P和D的影响相互抵消(证明见原文)。因此,作者提出了非对称去噪的方法: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724210011/9660576A-E9F4-427A-B3F7-CB59478BC832.png" style="background-color:initial;max-width:min(100%,900px);max-height:min(138px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724210011/9660576A-E9F4-427A-B3F7-CB59478BC832.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="900" height="138"> 即对P中预测的噪声进行偏移,保留D中的噪声。 作者通过在U-Net的最深层引入偏移量Δh来对噪声进行偏移,其通过一个轻量网络进行预测,得到了h-space,具有一些很好的特性:同样的Δh对不同的采样图片具有同样的影响;可以做到线性改变该特性,甚至负数得到反特性;多个Δh叠加可得到多个特性融合;不改变原来采样结果的图片质量;Δh在不同的时间步大致一致。