<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>RE-IMAGEN: RETRIEVAL-AUGMENTED TEXT-TO-IMAGE GENERATOR</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2209.14491">https://arxiv.org/abs/2209.14491</a> </li><li>ICLR 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724382364/EEB53D28-D698-477C-B747-62364B9B8B51.png" style="background-color:initial;max-width:min(100%,1526px);max-height:min(518px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724382364/EEB53D28-D698-477C-B747-62364B9B8B51.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1526" height="518"> 当前文生图对常见的对象生成效果很好,但对于一些不常见的对象,如Chortai (一种狗)和Picarones (一种食物),其生成内容就不能保证了。为了解决该问题,作者提出了Re-Imagen,一个利用检索信息使文生图效果更好的模型,特别是对于罕见或模型从未见过的对象。 给定一个文本prompt,Re-Imagen通过访问外部知识库(图文对)检索相关的内容,然后将该内容作为参考生成图像。通过该过程,Re-Imagen由于高层的语义信息和低层的视觉细节信息对生成过程进行了增强。此外,为了平衡文本对齐和检索内容的对齐,作者利用了一种新的采样策略去混合文本条件和检索条件的classifier-free guidance。 最后为了更全面地评测模型的能力,作者提出了EntityDrawBench,一个新的基准用于评价多种对象的图像生成能力,从常见到罕见。 具体来说,Re-Imagen将检索到的内容经过同样的Unet的编码阶段得到特征,然后与原特征进行cross-attention操作,从而将检索的信息融合进模型。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724383402/41C7824A-0740-4ADD-A788-3AD2BEC05FC1.png" style="background-color:initial;max-width:min(100%,1514px);max-height:min(748px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724383402/41C7824A-0740-4ADD-A788-3AD2BEC05FC1.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1514" height="748">