<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Subject-Diffusion: Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2307.11410">https://arxiv.org/abs/2307.11410</a> </li><li>SIGGRAPH 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1727947230/A3AFE2F7-A01C-4705-A577-61299E20CA56.png" style="background-color:initial;max-width:min(100%,3224px);max-height:min(1540px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1727947230/A3AFE2F7-A01C-4705-A577-61299E20CA56.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="3224" height="1540"> 定制化文生图发展迅速,然而,开放域的免测试微调的定制化文生图领域发展相对来说非常缓慢。文章提出了Subject-Diffusion,一个全新的开放域定制化文生图模型,该模型不仅仅不需要测试微调,还仅需要一张参考图像用于一个或两个任意域的对象的定制化生成。首先,文章建造了一个自动化数据标注工具,并使用LAION-Aesthetics数据集来构造一个大规模的数据集,其包含了76M张图像和对应的对象检测框、分割掩码以及其文本描述。然后,作者设计了一个新的统一的架构,通过结合粗粒度位置信息和细粒度参考图像控制来结合文本和图像语义,以最大限度地提高主体保真度和泛化能力。此外,还使用了注意力控制机制来支持两个对象的生成。 数据构建的pipeline如下图。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1727947660/53C3E6B0-2B3E-40CA-85B7-8074B75AABBD.png" style="background-color:initial;max-width:min(100%,3202px);max-height:min(1964px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1727947660/53C3E6B0-2B3E-40CA-85B7-8074B75AABBD.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="3202" height="1964"> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1727947660/B5FCDE4B-1CC7-4863-A555-CEE210CF6B56.png" style="background-color:initial;max-width:min(100%,3204px);max-height:min(1980px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1727947660/B5FCDE4B-1CC7-4863-A555-CEE210CF6B56.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="3204" height="1980"> 主要贡献就是构造了自己的数据集,但未开源。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:自己构造的数据集SDD</li><li>指标:同DreamBooth</li><li>硬件:未提及</li><li>开源:未开源</li></ul>