AnyDoor | lc's space

文章标题：AnyDoor: Zero-shot Object-level Image Customization
文章地址：https://arxiv.org/abs/2307.09481
CVPR 2024

任意门～文章提出了AnyDoor，可以将任意物体置于任意背景的指定位置。该模型首先将指定物体经过ID Extractor提取特征，该模块使用DINOv2，一个自监督的图像编码器，得到特征的token后替换原本文生图模型的文本token，进而引导图像生成。为了实现背景一致并引入细粒度特征，模型还将目标的高通特征图与背景和mask进行拼接，随后输入到类似ControlNet的模型中进行细节提取然后融合进UNet。

数据：视频数据
指标：CLIP-Score；DINO-Score
硬件：未提及
https://github.com/ali-vilab/AnyDoor

FreeU

PreciseControl