LeMiCa

  • 文章标题:LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
  • 文章地址:https://arxiv.org/abs/2511.00090
  • NIPS 2025
作者首先提出,之前的cache方法是局部贪婪的算法(即根据当前模型输出来判断是否cache),这样做有一个问题就是把所有时间步都看作是一样的,但其实不同的时间步具有异质性,如初始步数通常注重布局的生成从而更重要,后续的步数尽管可能相邻步数差异较大,但对总体结果影响不大(如下图的t1和t2)。作者也通过实验分析并证实了这一想法。 图中a可以看到,若只cache一步,在扩散过程前部分cache相较于后部分通常会引入更大的error,cache多步亦是如此,如上图b。 这里作者引入了全局输出loss,来衡量某部分cache对最终输出带来的误差。 因此,作者提出了一个全新的算法来进行cache。首先作者将反推过程看作一个有向无环图(DAG),边的权重即由状态i到j进行cache后的全局loss,因此,问题就转变成从初始状态到最终状态的最优路径。边的权重由多个prompt进行推理进行统计得到。值得注意的是,这里作者定义最优路径并非损失和最大的,因为整个扩散过程的损失不是相加的和马尔可夫性的,作者定义最优路径为:最小的最大权重边的路径(即将所有路径的边权重按大小排序,从左到右进行词排序,选取最小的路径)具体算法如下: 豆包解释得很好。 可改进的点: 1、整个图是离线构造的,且由多个prompt进行统计得到,没有针对不同的prompt进行适配。 2、实际上这是对所有cache方案进行损失估计的简化,如果对所有cache方案(所有segment的cache)进行统计分析肯定是更好的(但组合方案太多),而该方法通过图(单segment)和最小最大路径选择对其进行简化,这样有点粗糙了,能否有更精细的方案?