MasaCtrl | lc's space

文章标题：MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing
文章地址：https://arxiv.org/abs/2304.08465
ICCV 2023

文章提出了一个无需训练即可对图像进行一致性生成或编辑的方法，也可以用于真实图像。方法非常简单，就是通过将原图像的扩散过程作为参考（真实图像进行DDIM Inversion），引导目标图像的生成。具体来说，首先从与原扩散过程相同的噪声开始进行扩散，到了特定的时间步，修改self-attention为mutual self-attention，即保留Query，而Key和Value从参考过程中对应的self-attention层中获取，从而将参考图像信息融入扩散过程，实现一致性。为了避免主体与背景间的attention干扰，作者使用了cross-attention能反映布局的特性，使用cross-attention map作为mask，作用于mutual self-attention从而避免背景与主体干扰。同时该方法可以与一些布局引导的方法结合起来，实现想要的编辑效果。

数据：无需训练
指标：无
硬件：未提及
开源：https://github.com/TencentARC/MasaCtrl

DemoCaricature

Layer-Guidance