Layer-Guidance

感觉方法就是A&E迁移到布局控制生成。 方法很简单,在去噪过程中根据目标token的cross-attention map与其box的差异来优化隐变量,跟A&E想法一样,使得生成图像的布局满足给定框条件。 同时文章还指出了为什么直接修改目标token的map不行,首先是因为文本token在经过text encoder之后,其信息有重叠了,不同的token可能含有同样的信息,仅更改目标的map可能造成问题。第二,特殊token也有着一些特征,EoT的map通常对应着图片的突出区域,即实体对象区域,而SoT通常对应背景。这意味着之前的方法可能需要对特殊token的map进行修改。实验也证明修改会提高指标。 文章还发现初始化的噪声对整个图像的布局也有很大的影响。