<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2205.11487">https://arxiv.org/abs/2205.11487</a> </li><li>NIPS 2022</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724382774/18711063-B959-43F3-A2FF-1AFC950FC5E4.png" style="background-color:initial;max-width:min(100%,1520px);max-height:min(1236px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724382774/18711063-B959-43F3-A2FF-1AFC950FC5E4.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1520" height="1236"> 文章提出了Imagen,一个具有空前真实性和高层语言理解的文生图扩散模型。 模型建立在大语言模型的语言理解能力和扩散模型的高质量图片生成能力上。作者发现,仅用文本训练的通用的大语言模型(如T5)在文生图的文本编码上非常有效,且增加语言模型的尺寸比增加扩散模型的尺寸在生成图片的质量和文本对齐度上更有效。 为了更好地评测文生图模型,文章提出了DrawBench,一个文生图的全面且具有挑战的基准。且Imagen具有两个级联的扩散模型用于增加图片的分辨率(64-256-1024),模型的base使用的是U-Net。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1724382774/92C7E0D9-EB81-4266-B626-C14BDE642B20.png" style="background-color:initial;max-width:min(100%,1596px);max-height:min(1894px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1724382774/92C7E0D9-EB81-4266-B626-C14BDE642B20.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1596" height="1894">