Mix-of-Show | lc's space

文章标题：Mix-of-Show: Decentralized Low-Rank Adaptation forMulti-Concept Customization of Diffusion Models
文章地址：https://arxiv.org/abs/2305.18292
NIPS 2023

文生图模型可以使用LoRA进行对象的定制化生成。然而，使用多个定制概念的LoRA共同完成多对象的生成是一个挑战。作者将此任务称为去中心化的多对象定制，它涉及单客户端对象微调和中心节点对象融合。在这篇文章，作者提出了Mix-of-Show来解决这种去中心化多对象定制任务中的一些问题，包括现有单客户端LoRA微调方法造成的对象冲突以及模型混合中的身份信息损失。该方法使用了embedding分解的LoRA方法（embedding-decomposed LoRA, ED-LoRA）进行单客户端微调和中心节点的梯度混合方法用于保留单一概念的域内本质并支持理论上无限的概念融合。此外，作者还引入了区域可控采样，它扩展了空间可控采样（例如ControlNet和T2I-Adapter），以解决多概念采样中的属性绑定和缺失对象问题。广泛的实验表明，Mix-of-Show能够以高保真度组合多个定制概念，包括角色、对象和场景。

首先，文章进行了一些观察和分析：1、embedding能够捕获预训练模型域内的概念，而LoRA则有助于捕获域外信息。（图3（c，d））对于TI等训练embedding的方法无法捕捉域外的概念2、现有的LoRA权重编码了大部分概念身份，并向视觉上不同的概念投射到了语义上相似的embedding，导致概念融合过程中的冲突。（图3（c）中不同的对象其embedidng的语义很相似）。基于此，文章提出了ED-LoRA，就是P+与LoRA相结合，并使用两个token表示一个对象。在每个对象都能够由LoRA捕捉后，接下来讨论如何利用这些LoRA共同引导多对象的生成。在中心节点，拿到了多个对象的LoRA，并利用这些模型更新预训练模型的参数用于多对象的生成，在图3（e）可以看到，单纯地将LoRA参数混合是没办法正确的进行多对象生成的，因为他们的embedding很相似。该方法使用以下式子来训练新模型，使其每一层的参数W能够模仿每一个概念的计算过程：

其中Xi表示某单概念模型生成过程中的中间特征（其prompt图里使用的是A photo of a S*）。对于区域可控采样，仅利用空间控制方法（ControlNet, T2I-Adapter等）容易造成属性的绑定（图5a），仅通过prompt指定属性容易出现问题。为了解决该问题，文章提出了一个方法，该方法利用一个全局prompt和多个区域prompt来描述一张基于空间条件的图像，然后使用区域prompt去计算对应区域的特征进行融合，其主导思想就是不同的区域使用不同的prompt引导（图5c）。

数据：自己构造的测试数据
指标：文本对齐度；图像对齐度；（CLIP）
硬件：1-2 A100
开源：https://showlab.github.io/Mix-of-Show/

Cones

P+