<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Inserting Anybody in Diffusion Models via Celeb Basis</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2306.00926">https://arxiv.org/abs/2306.00926</a> </li><li>NIPS 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1728215848/F3AD2189-E53F-4A16-BE2F-2184F60868BE.png" style="background-color:initial;max-width:min(100%,1926px);max-height:min(880px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1728215848/F3AD2189-E53F-4A16-BE2F-2184F60868BE.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1926" height="880"> 简单有效的方法,利用文生图模型内在具有的名人图像生成能力使新对象嵌入到模型中。 以前的增加新对象的方法会削弱对象的联合生成能力,为此,文章提出了新的方法,仅仅使用1024个参数和低于3min的训练时间将特定人无缝地与预训练的文生图模型结合。为实现该目标,作者在预训练的文本编码器的词嵌入空间中分析并精心构建了一组由名人组成的基,当将一张图片作为目标人物时,通过优化这些基的系数从而得到该人物的词嵌入,在这个过程中其他部分参数都是冻住的。该方法在概念联合生成(多个人物共同生成)中明显超过现有模型,并且,模型能够一次学习多个目标人物并很好地联合生成他们,这在以前的模型都是失败的。 具体来说,作者首先发现名人的词嵌入具有线性插入融合的特性,从而产生了该idea。首先收集并过滤名人的名字,将其经过tokenizer得到词嵌入,然后经过PCA将p个(512)主成分特征向量,利用该p个向量作为基计算目标人物的词嵌入。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1728216692/2A83EC75-5CE5-4BD3-BC9D-8210DAD34FDD.png" style="background-color:initial;max-width:min(100%,1920px);max-height:min(862px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1728216692/2A83EC75-5CE5-4BD3-BC9D-8210DAD34FDD.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1920" height="862"> 值得注意的是,模型训练时并不是对系数直接进行优化训练,而是将人脸图片经过人脸识别模型(Arcface)得到人脸特征,再经过MLP对系数进行预测。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1728216889/359C6D43-E995-4F95-A5B0-D4F9C61FB600.png" style="background-color:initial;max-width:min(100%,1918px);max-height:min(706px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1728216889/359C6D43-E995-4F95-A5B0-D4F9C61FB600.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1918" height="706"> 效果图: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1728216890/2A9D0832-4393-4581-92CC-C5FA8F3BD2D9.png" style="background-color:initial;max-width:min(100%,1918px);max-height:min(1276px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1728216890/2A9D0832-4393-4581-92CC-C5FA8F3BD2D9.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1918" height="1276"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:测试时微调(StyleGAN生成的数据集)</li><li>指标:CLIP;人脸相似度;人脸检测率</li><li>硬件:未提及</li><li>开源:<a href="https://celeb-basis.github.io/">https://celeb-basis.github.io</a> </li></ul>