MasaCtrl

  • 文章标题:MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing
  • 文章地址:https://arxiv.org/abs/2304.08465
  • ICCV 2023
文章提出了一个无需训练即可对图像进行一致性生成或编辑的方法,也可以用于真实图像。 方法非常简单,就是通过将原图像的扩散过程作为参考(真实图像进行DDIM Inversion),引导目标图像的生成。具体来说,首先从与原扩散过程相同的噪声开始进行扩散,到了特定的时间步,修改self-attention为mutual self-attention,即保留Query,而Key和Value从参考过程中对应的self-attention层中获取,从而将参考图像信息融入扩散过程,实现一致性。为了避免主体与背景间的attention干扰,作者使用了cross-attention能反映布局的特性,使用cross-attention map作为mask,作用于mutual self-attention从而避免背景与主体干扰。同时该方法可以与一些布局引导的方法结合起来,实现想要的编辑效果。