- 文章标题:Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA
- 文章地址:https://arxiv.org/abs/2304.06027
- TMLR 2024
文章提出了一个新的问题,即通过多对象的图片序列微调定制化一个模型,从而使该模型同时具有生成多个对象的能力。
当前模型针对这种序列化定制的任务往往表现得不好,会出现灾难性遗忘的情况。为了防止遗忘,作者提出了一种新的方法C-LoRA,由SD中的交叉注意力层的持续性自正则化LoRA组成。
具体来说,对于每个新的对象,学习一套新的LoRA权重,模型最后的权重为每套LoRA相加(持续性),并引入自正则化机制防止遗忘。此外,每个对象的embedding随机初始化,在推理时,将名词替换为特定对象的词。
- 数据:人脸(Celeb-A HQ);地标建筑(Google Landmarks dataset v2)
- 指标:图像对齐(CLIP);两图片集的分布差异(MMD);
- 硬件:2 A100
- 开源:未开源