<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Training-Free Layout Control with Cross-Attention Guidance</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2304.03373">https://arxiv.org/abs/2304.03373</a> </li><li>WACV 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734061023/31158D7C-D704-42E8-8B68-C2D2C81047C6.png" style="background-color:initial;max-width:min(100%,1180px);max-height:min(1008px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734061023/31158D7C-D704-42E8-8B68-C2D2C81047C6.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1180" height="1008"> 感觉方法就是A&E迁移到布局控制生成。 方法很简单,在去噪过程中根据目标token的cross-attention map与其box的差异来优化隐变量,跟A&E想法一样,使得生成图像的布局满足给定框条件。 同时文章还指出了为什么直接修改目标token的map不行,首先是因为文本token在经过text encoder之后,其信息有重叠了,不同的token可能含有同样的信息,仅更改目标的map可能造成问题。第二,特殊token也有着一些特征,EoT的map通常对应着图片的突出区域,即实体对象区域,而SoT通常对应背景。这意味着之前的方法可能需要对特殊token的map进行修改。实验也证明修改会提高指标。 文章还发现初始化的噪声对整个图像的布局也有很大的影响。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734061781/D11EBFF9-0CFD-49E4-B198-EC1B4DB60558.png" style="background-color:initial;max-width:min(100%,2358px);max-height:min(1024px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734061781/D11EBFF9-0CFD-49E4-B198-EC1B4DB60558.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2358" height="1024"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li>指标:三个benchmark</li><li>硬件:未提及</li><li>开源:<a href="https://silent-chen.github.io/layout-guidance/">https://silent-chen.github.io/layout-guidance/</a> </li></ul>