InstantStyle | lc's space

文章标题：InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
文章地址：https://arxiv.org/abs/2404.02733
技术报告

文章指出了风格迁移存在着一些问题和挑战，首先是风格的定义是不明确的，其次基于inversion的方法的效果一般，最后基于adapter的方法通常需要精心的权重调整来平衡风格保留度和文本对齐度。文章提出了一个新的方法来解决这些问题，包含两个策略，1、一个非常直接的机制用于结耦图片的风格和内容；2、将注入参考图片特征的层调整为特定的层。具体来说，方法非常简单，其基于IP-Adapter来做修改，对于第一个策略，通过使用CLIP提取图像特征后再在特征空间中减去其文本特征，就完成了所谓的内容结耦，非常的直接简单，最后也证明了有效性。对于第二个策略，也是由前人发现UNet中相对内层主要负责风格等控制，因此进行了特定层的嵌入而非所有层。

Emu3

MotionClone