<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2305.13655">https://arxiv.org/abs/2305.13655</a> </li><li>TMLR 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734019506/579DFC20-D17C-4B26-8C7A-4BDA50D9FE17.png" style="background-color:initial;max-width:min(100%,2232px);max-height:min(848px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734019506/579DFC20-D17C-4B26-8C7A-4BDA50D9FE17.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2232" height="848"> 这篇文章针对文生图扩散模型对于那些复杂的prompt(包含数量、空间关系等)的生成效果不好做出了改进。方法包含两个阶段,首先使用LLM对prompt进行分析,生成图片的布局等信息;第二个阶段即根据布局进行进行扩散生成。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734019872/4DFB9424-5B6F-4669-B02A-9580806965BC.png" style="background-color:initial;max-width:min(100%,2232px);max-height:min(1784px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734019872/4DFB9424-5B6F-4669-B02A-9580806965BC.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2232" height="1784"> 第一阶段好理解,第二阶段具体来说就是首先对每一个对象框,联合背景,以及他们的prompt进行单独的扩散,其中通过将cross-attention map约束到该对象框中,来优化图像隐变量,从而实现整个扩散过程主要在框中进行。在生成完成后,使用目标对象token的cross-attention map作为mask,将每个时间步的隐变量进行处理,得到了只关于该对象在特定位置的隐变量。得到所有对象的隐变量后,将它们组合起来进行最终图的扩散过程,在这个过程中,还使用了所有对象的cross-attention map对该扩散过程进行约束,即将对应token的cross-attention map进行替换。最终生成目标图像。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734020486/DE846472-696A-4D8B-819F-723608FC5E27.png" style="background-color:initial;max-width:min(100%,2232px);max-height:min(982px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734020486/DE846472-696A-4D8B-819F-723608FC5E27.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2232" height="982"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li>指标:自己提出了BenchMark</li><li>硬件:未提及</li><li>开源:<a href="https://llm-grounded-diffusion.github.io">https://llm-grounded-diffusion.github.io</a> </li></ul>