<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2511.00090">https://arxiv.org/abs/2511.00090</a> </li><li>NIPS 2025</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_c1d4e10d-abda-46f4-b6b7-031cf7ac9a51/public" style="background-color:initial;max-width:min(100%,1590px);max-height:min(464px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_c1d4e10d-abda-46f4-b6b7-031cf7ac9a51/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1590" height="464"> 作者首先提出,之前的cache方法是局部贪婪的算法(即根据当前模型输出来判断是否cache),这样做有一个问题就是把所有时间步都看作是一样的,但其实不同的时间步具有异质性,如初始步数通常注重布局的生成从而更重要,后续的步数尽管可能相邻步数差异较大,但对总体结果影响不大(如下图的t1和t2)。作者也通过实验分析并证实了这一想法。 <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_68970882-ab40-42ca-9406-c08068d82036/public" style="background-color:initial;max-width:min(100%,1774px);max-height:min(1228px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_68970882-ab40-42ca-9406-c08068d82036/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1774" height="1228"> 图中a可以看到,若只cache一步,在扩散过程前部分cache相较于后部分通常会引入更大的error,cache多步亦是如此,如上图b。 这里作者引入了全局输出loss,来衡量某部分cache对最终输出带来的误差。 <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_532a9ffe-46a5-4fcc-b4cd-68660f7069d4/public" style="background-color:initial;max-width:min(100%,912px);max-height:min(154px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_532a9ffe-46a5-4fcc-b4cd-68660f7069d4/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="912" height="154"> 因此,作者提出了一个全新的算法来进行cache。首先作者将反推过程看作一个有向无环图(DAG),边的权重即由状态i到j进行cache后的全局loss,因此,问题就转变成从初始状态到最终状态的最优路径。边的权重由多个prompt进行推理进行统计得到。值得注意的是,这里作者定义最优路径并非损失和最大的,因为整个扩散过程的损失不是相加的和马尔可夫性的,作者定义最优路径为:最小的最大权重边的路径(即将所有路径的边权重按大小排序,从左到右进行词排序,选取最小的路径)具体算法如下: <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_9dcbe5f7-6d45-4b92-bbdf-90ae0be37c5b/public" style="background-color:initial;max-width:min(100%,1784px);max-height:min(1332px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_9dcbe5f7-6d45-4b92-bbdf-90ae0be37c5b/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1784" height="1332"> 豆包解释得很好。 可改进的点: 1、整个图是离线构造的,且由多个prompt进行统计得到,没有针对不同的prompt进行适配。 2、实际上这是对所有cache方案进行损失估计的简化,如果对所有cache方案(所有segment的cache)进行统计分析肯定是更好的(但组合方案太多),而该方法通过图(单segment)和最小最大路径选择对其进行简化,这样有点粗糙了,能否有更精细的方案? <ul class="dashed" data-apple-notes-indent-amount="0"><li>开源:<a href="https://github.com/UnicomAI/LeMiCa">https://github.com/UnicomAI/LeMiCa</a> </li></ul>