Cones2 | lc's space

文章标题：Cones 2: Customizable Image Synthesis with Multiple Subjects
文章地址：https://arxiv.org/abs/2305.19327
NIPS 2023

文章聚焦于高效地定制化生成多个对象。具体来说，文章首先学习到每个对象的embedding差异值，通过训练文本编码器使用重建损失学习到特定对象的特定embedding，并与原编码器在概念词之外的embedding做一个正则损失，通过该方法可以得到该特定对象相对于原概念embedding的差。在推理时，使用了物体框的空间条件引导注意力矩阵的分布，使特定框生成特定的物体，并减少了物体间的影响，提高了生成图像的质量。

数据：测试时微调
指标：图像对齐度；文本对齐度；存储空间；多对象微调计算复杂度
硬件：1 A100
开源：https://github.com/ali-vilab/Cones-V2

PortraitBooth

CAFE