SSR-Encoder

最近的定制化文生图在零样本生成中取得了快速发展,但精确地定位和聚焦于特定对象的特征仍然存在挑战。为此,文章提出了SSR-Encoder,一个能够在一张或多张图片中选择性捕捉某个对象并进行条件生成的框架,可以使用文本或掩码来进行选择,且不需要测试微调。 文章提出了一个Token-to-Patch Aligner用于将query与图像的patch对齐,以此生成特定区域的attention,从而得到特定对象的特征。还提出了细节保留模块用于提取特定对象的多粒度特征。然后将得到的条件信息与引导文本进行融合,共同引导图像的生成。
  • 数据:LAION
  • 指标:DINO Score; DINO-M Score;CLIP-I; CLIP-T; CLIP-ES; Aethetic Score
  • 硬件:8H800/bs16
  • 开源:https://ssr-encoder.github.io