<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Cones 2: Customizable Image Synthesis with Multiple Subjects</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2305.19327">https://arxiv.org/abs/2305.19327</a> </li><li>NIPS 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729476009/67EC70C5-306D-4A06-99F7-03A11E846BDA.png" style="background-color:initial;max-width:min(100%,1930px);max-height:min(1142px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729476009/67EC70C5-306D-4A06-99F7-03A11E846BDA.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1930" height="1142"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul> 文章聚焦于高效地定制化生成多个对象。 具体来说,文章首先学习到每个对象的embedding差异值,通过训练文本编码器使用重建损失学习到特定对象的特定embedding,并与原编码器在概念词之外的embedding做一个正则损失,通过该方法可以得到该特定对象相对于原概念embedding的差。 在推理时,使用了物体框的空间条件引导注意力矩阵的分布,使特定框生成特定的物体,并减少了物体间的影响,提高了生成图像的质量。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729476818/A5C776F7-9B1B-4EC3-BCCB-DA4B64ACD476.png" style="background-color:initial;max-width:min(100%,1880px);max-height:min(1190px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729476818/A5C776F7-9B1B-4EC3-BCCB-DA4B64ACD476.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1880" height="1190"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:测试时微调</li><li>指标:图像对齐度;文本对齐度;存储空间;多对象微调计算复杂度</li><li>硬件:1 A100</li><li>开源:<a href="https://github.com/ali-vilab/Cones-V2">https://github.com/ali-vilab/Cones-V2</a> </li></ul>