Break-A-Scene

当前的定制化文生图的方法专注于从多个图片中学习一个对象。文章提出了一个新的任务,即文本场景分离:给定一张图片(包含多个对象),目标为提取每个对象对应的特定的token,在生成的过程中能够完成细粒度控制。为了完成该任务,文章得到该图像的多个对象对应的mask,指定对应的对象。mask由用户或者分割模型得到。然后作者提出了新的两阶段的定制化方法,首先优化特定对象的embedding,然后将模型参数与embedding一块训练。 作者使用了mask diffusion loss使token能够捕捉到特定的对象,并且使用了在cross-attention maps上的loss用于解耦不同的对象。同样在训练时,作者提出了union-sampling,一个训练策略用于增强联合多个对象生成图片的能力(即训练时随机混合N个对象进行训练)。 最后文章指出了不足,1)模型不能解耦光照条件与对象,2)模型不能解耦姿势与对象,3)超过4个对象表现不佳,4)计算的参数量大。