<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2412.08629">https://arxiv.org/abs/2412.08629</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749478462/74802A52-72E6-46B6-A8C6-FF8BAC77BE17.png" style="background-color:initial;max-width:min(100%,2320px);max-height:min(1398px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749478462/74802A52-72E6-46B6-A8C6-FF8BAC77BE17.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2320" height="1398"> 文章提出了一个无需inversion的针对所有流模型的图像编辑方法FlowEdit。作者提出,现有的基于扩散模型的真实图像编辑方法通常需要inversion,然而反转本身通常不足以得到满意的结果,因此有很多方法通过在采样过程进行介入进行优化。这些方法确实能够得到好的结果,但无法无缝地扩展到其他模型架构中。文章提出了FlowEdit,一个无需inversion,无需优化且与模型无关的针对T2I流模型的图像编辑方法。该方法构造了一个ODE从原图像分布到目标图像分布,直接进行了图像编辑,对比基于inversion的方法降低了传输成本。 具体来说可看主图,a是基于inversion的方法,b是作者对a的重新描述:作者将其看作一个从原分布到目标分布的直接路径,该路径的速度由inversion和采样的速度共同计算得到。c是FlowEdit,其实非常简单,就是用随机噪声注入到原图像的结果替换b中的inversion结果,其他与b一样。以下是FlowEdit算法: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749479413/078AD68E-BB18-415E-823E-20DE809306F9.png" style="background-color:initial;max-width:min(100%,1202px);max-height:min(872px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749479413/078AD68E-BB18-415E-823E-20DE809306F9.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1202" height="872"> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749479413/23B50D65-959C-485C-8EAA-96B541910721.png" style="background-color:initial;max-width:min(100%,2396px);max-height:min(1772px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749479413/23B50D65-959C-485C-8EAA-96B541910721.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2396" height="1772"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练数据</li><li>指标:LPIPS; CLIP</li><li>硬件:不重要</li><li>开源:</li></ul>