E4T | lc's space

文章标题：Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models
文章地址：https://arxiv.org/abs/2302.12228
TOG 2023

比较难懂，还需精读。当前的定制化文生图需要大量的训练时间、存储空间或有一定的身份损失。为了解决这些问题，文章提出了一个基于编码器的域适应的方法。文章的关键思想为，通过对给定领域的大量概念进行不足的拟合，我们可以提高泛化能力，并创建一个更适合从同一领域快速添加新概念的模型。具体来说，方法包含两个部分：首先是一个目标域的特定对象的图片编码器，然后将其映射到词空间中代表该对象；其次是模型中正则化的权重偏移的集合，用于学习如何有效地处理增加的对象。两个部分共同运作，可以使文生图模型在对单张对象图片训练仅仅5步左右后，具备该对象的定制化文生图的能力。

数据：人脸（FFHQ）、猫（LSUN-Cat）
指标：人脸相似度（某篇论文的，具体看原文）；文本对齐度（CLIP）
硬件：1 A100/bs16
开源：https://tuning-encoder.github.io

T2I-Adapter

Prompt-to-Prompt