<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2302.13848">https://arxiv.org/abs/2302.13848</a> </li><li>ICCV 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724384224/7D821956-E815-43E9-8FA1-8D7ED40F2F16.png" style="background-color:initial;max-width:min(100%,2420px);max-height:min(1164px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724384224/7D821956-E815-43E9-8FA1-8D7ED40F2F16.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2420" height="1164"> 当前定制对象的文生图一般都是基于优化的方法,这带来了过多的计算和存储困难。文章提出了ELITE,一个由全局映射网络和局部映射网络组成的基于学习的编码器,用于快速和准确的个性化文生图。 具体来说,全局映射网络将图像的多层特征(CLIP Image Encoder)映射到文本单词的嵌入空间中的多个新的词中,其中包含一个最主要的包含可编辑的主要概念的词和一些用于去除目标概念无关信息的副助词。局部映射网络将编码后的局部特征注入到交叉注意力层,以此提供目标概念的补充细节同时保留了可编辑性。 文章通过实验证明了网络结构的有效性和合理性,同时指出了在生成包含文字的图片的不足。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724384412/9836719C-F5D0-4CB6-862F-EC8F96288989.png" style="background-color:initial;max-width:min(100%,1234px);max-height:min(904px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724384412/9836719C-F5D0-4CB6-862F-EC8F96288989.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1234" height="904"> <div style="text-align: justify"><ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:OpenImage</li><li>指标:CLIP-I CLIP-T DINO-I 推理时间</li><li>硬件:4 V100/bs16</li><li>开源:</li></ul></div> <div style="text-align: justify"><ul class="dashed" data-apple-notes-indent-amount="0"><li><a href="https://github.com/csyxwei/ELITE">https://github.com/csyxwei/ELITE</a></li></ul></div> <div style="text-align: justify"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul></div>