<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2304.08465">https://arxiv.org/abs/2304.08465</a> </li><li>ICCV 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734415412/6C8A544C-1445-490C-8DAA-234142A06C2C.png" style="background-color:initial;max-width:min(100%,2346px);max-height:min(1350px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734415412/6C8A544C-1445-490C-8DAA-234142A06C2C.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2346" height="1350"> 文章提出了一个无需训练即可对图像进行一致性生成或编辑的方法,也可以用于真实图像。 方法非常简单,就是通过将原图像的扩散过程作为参考(真实图像进行DDIM Inversion),引导目标图像的生成。具体来说,首先从与原扩散过程相同的噪声开始进行扩散,到了特定的时间步,修改self-attention为mutual self-attention,即保留Query,而Key和Value从参考过程中对应的self-attention层中获取,从而将参考图像信息融入扩散过程,实现一致性。为了避免主体与背景间的attention干扰,作者使用了cross-attention能反映布局的特性,使用cross-attention map作为mask,作用于mutual self-attention从而避免背景与主体干扰。同时该方法可以与一些布局引导的方法结合起来,实现想要的编辑效果。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734423547/F7F2231F-67C1-4C90-8A86-D77326E68B66.png" style="background-color:initial;max-width:min(100%,2382px);max-height:min(1134px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734423547/F7F2231F-67C1-4C90-8A86-D77326E68B66.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2382" height="1134"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li>指标:无</li><li>硬件:未提及</li><li>开源:<a href="https://github.com/TencentARC/MasaCtrl">https://github.com/TencentARC/MasaCtrl</a> </li></ul>