InstantBooth

当前的定制化文生图方法通常需要对每个对象进行测试微调,导致时间的浪费和难以扩展。文章提出了InstantBooth,一个全新的方法,基于预训练的文生图模型,支持免测试微调的即时特定对象的文生图,其思路跟ELITE很像,都是将全局信息和局部信息分开处理并结合起来。 具体来说,首先通过可学习的图像编码器将输入图片转换为一个文本token,从而学习输入图片的一般概念。然后为了保持目标的细粒度的特征,利用在预训练的模型中引入一些adapter层学习丰富的视觉特征表达。训练该模型只需要文本图像对而非使用同样的对象。
  • 数据:自己建的人和猫两类数据
  • 指标:Reconstruction(生成图片和参考图片的CLIP分数);Face Distance(检测人脸后使用Inception-ResnetV1提取特征,计算生成的人脸和原本的人脸的特征的距离);Alignment(计算生成图片与prompt的对齐度,使用CLIP)
  • 硬件:4 A100/bs16
  • 开源:非开源