<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2302.12228">https://arxiv.org/abs/2302.12228</a> </li><li>TOG 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1725351730/BB3F6D3F-F375-4BFE-BE7D-F6467B2F542A.png" style="background-color:initial;max-width:min(100%,2470px);max-height:min(1350px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1725351730/BB3F6D3F-F375-4BFE-BE7D-F6467B2F542A.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2470" height="1350"> 比较难懂,还需精读。 当前的定制化文生图需要大量的训练时间、存储空间或有一定的身份损失。为了解决这些问题,文章提出了一个基于编码器的域适应的方法。文章的关键思想为,通过对给定领域的大量概念进行不足的拟合,我们可以提高泛化能力,并创建一个更适合从同一领域快速添加新概念的模型。具体来说,方法包含两个部分:首先是一个目标域的特定对象的图片编码器,然后将其映射到词空间中代表该对象;其次是模型中正则化的权重偏移的集合,用于学习如何有效地处理增加的对象。两个部分共同运作,可以使文生图模型在对单张对象图片训练仅仅5步左右后,具备该对象的定制化文生图的能力。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1725020578/7574B8C7-C540-4EB9-977C-67F9437286ED.png" style="background-color:initial;max-width:min(100%,2504px);max-height:min(1048px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1725020578/7574B8C7-C540-4EB9-977C-67F9437286ED.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2504" height="1048"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:人脸(FFHQ)、猫(LSUN-Cat)</li><li>指标:人脸相似度(某篇论文的,具体看原文);文本对齐度(CLIP)</li><li>硬件:1 A100/bs16</li><li><span style="font-family: '.PingFangSC-Regular'">开源:</span><a href="https://tuning-encoder.github.io/">https://tuning-encoder.github.io</a> </li></ul>