<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>Adding Conditional Control to Text-to-Image Diffusion Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2302.05543">https://arxiv.org/abs/2302.05543</a> </li><li>ICCV 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1723729156/3775375A-744D-4379-A961-55CEAFA3F502.png" style="background-color:initial;max-width:min(100%,1110px);max-height:min(1820px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1723729156/3775375A-744D-4379-A961-55CEAFA3F502.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1110" height="1820"> 作者提出了ControlNet,可以对预训练的文生图模型引入空间布局条件的控制,其通过训练一个源模型的复制品,称为ControlNet,其通过zero convolution layer(即初始化为0的卷积层)与源模型连接。零卷积层的参数从0逐渐增加,确保没有噪声影响整个微调过程。模型在边缘图、深度图、分割图和人体姿势图等等表现都很好,做到了布局条件下的图片生成。 主图中为Stable Diffusion下的ControlNet结构,其训练了U-Net中的Encoder和Middle Block的复制。