<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2404.02733">https://arxiv.org/abs/2404.02733</a> </li><li>技术报告</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1745307865/726B2166-CD4A-4722-B58D-CB27A8A960F9.png" style="background-color:initial;max-width:min(100%,1654px);max-height:min(1708px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1745307865/726B2166-CD4A-4722-B58D-CB27A8A960F9.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1654" height="1708"> 文章指出了风格迁移存在着一些问题和挑战,首先是风格的定义是不明确的,其次基于inversion的方法的效果一般,最后基于adapter的方法通常需要精心的权重调整来平衡风格保留度和文本对齐度。文章提出了一个新的方法来解决这些问题,包含两个策略,1、一个非常直接的机制用于结耦图片的风格和内容;2、将注入参考图片特征的层调整为特定的层。 具体来说,方法非常简单,其基于IP-Adapter来做修改,对于第一个策略,通过使用CLIP提取图像特征后再在特征空间中减去其文本特征,就完成了所谓的内容结耦,非常的直接简单,最后也证明了有效性。对于第二个策略,也是由前人发现UNet中相对内层主要负责风格等控制,因此进行了特定层的嵌入而非所有层。