AnyDoor

任意门~ 文章提出了AnyDoor,可以将任意物体置于任意背景的指定位置。该模型首先将指定物体经过ID Extractor提取特征,该模块使用DINOv2,一个自监督的图像编码器,得到特征的token后替换原本文生图模型的文本token,进而引导图像生成。为了实现背景一致并引入细粒度特征,模型还将目标的高通特征图与背景和mask进行拼接,随后输入到类似ControlNet的模型中进行细节提取然后融合进UNet。