PreciseControl | lc's space

文章标题：PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control
文章地址：https://arxiv.org/abs/2408.05083
ECCV 2024

文章的思路跟w+ Adapter很像，都是利用StyleGAN中的w+空间，将人脸嵌入到文生图扩散模型中引导图像生成，完成定制人脸文生图，同时还能保留人脸在w+空间中的属性细粒度控制的特性。值得注意的是，这篇文章的方法需要测试微调，并且在w+的隐变量映射到文本空间中时会有时间步t的参与，也就是说embedding不是一次性全得到的，对于不同的t还需要计算不同的embedding。该方法首先使用人脸数据对W模块进行预训练，然后在测试时也要对W模块和整个UNet进行LoRA训练。感觉还是偏麻烦，不符合实际应用场景。

数据：测试微调，但先用StyleGAN2和FFHQ的数据对W模块进行预训练
指标：CLIP；人脸相似度
硬件：未提及
开源：https://rishubhpar.github.io/PreciseControl.home/

AnyDoor

CosmicMan