<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>DemoCaricature: Democratising Caricature Generation with a Rough Sketch</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2312.04364">https://arxiv.org/abs/2312.04364</a> </li><li>CVPR 2024</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734449969/406F3113-1E08-44C4-AB92-7D21107AD12D.png" style="background-color:initial;max-width:min(100%,2344px);max-height:min(758px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734449969/406F3113-1E08-44C4-AB92-7D21107AD12D.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2344" height="758"> 该文章的任务是根据素描生成特定人物的漫画图像,需要对单张图像进行训练。该方法实现了较好的人脸保留度与形状对齐度的平衡,此外还增加了风格图像作为风格条件作为引导。 方法跟我之前那个idea很像,在TI基础上进行改进,通过在每个cross-attention processor中增加一个可学习的向量,增加K和V的表达能力,该方法在这里有一个相似度的计算,不是很明白。(源于Perfusion) 此外,文章还增加了对人脸进行随机mask的trick,以及对学习到的向量的正则化的惩罚项,增加模型的鲁棒性。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1734490867/24276775-716C-47FC-9C0F-20743EC54162.png" style="background-color:initial;max-width:min(100%,2230px);max-height:min(1688px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1734490867/24276775-716C-47FC-9C0F-20743EC54162.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2230" height="1688"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:测试时单张图像微调</li><li>指标:CLIP-Score;User Study</li><li>硬件:1 GTX4090/bs16</li><li>开源:<a href="https://democaricature.github.io/">https://democaricature.github.io</a> </li></ul>