<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2208.12242">https://arxiv.org/abs/2208.12242</a> </li><li>CVPR 2023</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724218721/AD719941-3A6E-45DE-925C-C98DA8EBE567.png" style="background-color:initial;max-width:min(100%,1220px);max-height:min(1384px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724218721/AD719941-3A6E-45DE-925C-C98DA8EBE567.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1220" height="1384"> 定制化文生图的经典之作。作者指出,当前文生图模型可以得到高质量和多样化的图片,但缺少从一张图片中复刻对象并生成该对象在不同文本条件下的图片的能力。因此文章提出了一种新的方法,用于定制化文生图。给定某对象的一些图片,微调一个预训练的文生图模型使其将该对象与一个特殊的标识符相对应。 当该对象被嵌入到模型的输出范围内,可以使用该标识符在不同的场景中来生成该对象。模型可以生成多角度、多场景、多光照条件、多姿势的对象。值得注意的是,该方法的损失函数还加上了先验信息保留的部分,用于保留多样性以及防止语言飘移。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724383402/A6F565EA-9F87-4E25-8848-D04A0ADF944B.png" style="background-color:initial;max-width:min(100%,1898px);max-height:min(752px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724383402/A6F565EA-9F87-4E25-8848-D04A0ADF944B.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1898" height="752">