<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Customization Assistant for Text-to-image Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2312.03045">https://arxiv.org/abs/2312.03045</a> </li><li>CVPR 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729499982/2B63B1AE-F28A-4C1D-8F0A-7009E654C8C3.png" style="background-color:initial;max-width:min(100%,1180px);max-height:min(1714px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729499982/2B63B1AE-F28A-4C1D-8F0A-7009E654C8C3.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1180" height="1714"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul> 这种idea的硬件条件实验室不够。 文章提出了一种交互式定制化图像生成的方法CAFE,该方法结构如图,基于MLLM,首先将prompt和图像embedding经过MLLM后,得到文本输出和图像部分的embedding,然后使用该embedding和原图embedding共同引导图像生成(同IP-Adapter),值得注意的是这里的DM的文本条件被去掉了。 在训练时,H与目标图像的CLIP Embedding对齐,从而可以使MLLM和DM分开训练,在DM训练时,使用目标的CLIP Embedding和原图的embedding引导进行训练。 该方法可以支持用户以较模糊的方式来定制化图像生成,而不仅仅用确定的prompt引导。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1729500595/4ED39328-B68B-43C8-9BE1-7D9BCC7B98F3.png" style="background-color:initial;max-width:min(100%,1186px);max-height:min(1104px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1729500595/4ED39328-B68B-43C8-9BE1-7D9BCC7B98F3.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1186" height="1104"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:自己构建(1M四元组)</li><li>指标:DINO;CLIP-I;CLIP-T;ID(人脸)</li><li>硬件:2W A100 GPU Hours</li><li>未开源</li></ul>