Cones2

文章聚焦于高效地定制化生成多个对象。 具体来说,文章首先学习到每个对象的embedding差异值,通过训练文本编码器使用重建损失学习到特定对象的特定embedding,并与原编码器在概念词之外的embedding做一个正则损失,通过该方法可以得到该特定对象相对于原概念embedding的差。 在推理时,使用了物体框的空间条件引导注意力矩阵的分布,使特定框生成特定的物体,并减少了物体间的影响,提高了生成图像的质量。