<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2307.06949">https://arxiv.org/abs/2307.06949</a> </li><li>CVPR 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1727595533/F436523E-B120-4A3B-B878-DCD6B1251057.png" style="background-color:initial;max-width:min(100%,1746px);max-height:min(1784px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1727595533/F436523E-B120-4A3B-B878-DCD6B1251057.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1746" height="1784"> 感觉跟E4T很像,都是先获得权重偏置再进行微调,作者是DreamBooth的作者。 当前定制化文生图方法存在着存储问题和算力问题,为了解决这些问题,文章提出了HyperDreamBooth,一个用于对一个张图片生成一个小的参数集合的超网络。通过结合这些参数,并进行快速微调,模型可以生成高保真的处于多种上下文和风格的特定对象的图片,同时保留模型的知识,可以仅用20s获得一张定制人脸的图片。 具体来说,文章首先提出了lightweight DreamBooth,一种魔改LoRA的轻量化微调方法,该模型可微调的参数非常少,因此可以更大程度保留模型知识。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1727596349/5EBF6993-FE76-4A6A-97A5-C63C879FB25E.png" style="background-color:initial;max-width:min(100%,2042px);max-height:min(1290px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1727596349/5EBF6993-FE76-4A6A-97A5-C63C879FB25E.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2042" height="1290"> 随后利用训练好的lightweight DreamBooth的参数对超网络进行监督,训练超网络,使得提供一张人脸图片,其能够生成对应的lightweight DreamBooth参数。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1727596349/404B77FA-A91B-4C73-A890-97F2F39269B1.png" style="background-color:initial;max-width:min(100%,2080px);max-height:min(838px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1727596349/404B77FA-A91B-4C73-A890-97F2F39269B1.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2080" height="838"> 最后再对整个模型使用LoRA进行微调,在这个微调过程,LoRA的秩是没有限制的。从而,模型可以学到更多细节以及保证高保真度。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1727596549/92B97220-7C6E-49AF-BD81-28B1E4B0DCA9.png" style="background-color:initial;max-width:min(100%,2052px);max-height:min(1288px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1727596549/92B97220-7C6E-49AF-BD81-28B1E4B0DCA9.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2052" height="1288"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:CelebA-HQ</li><li>指标:Face Rec.(人脸识别指标);CLIP-I CLIP-T;DINO</li><li>硬件:未提及</li><li>开源:<a href="https://hyperdreambooth.github.io">https://hyperdreambooth.github.io</a>(未开源代码)</li></ul>