AdaCache | lc's space

文章标题：Adaptive Caching for Faster Video Generation with Diffusion Transformers
文章地址：https://arxiv.org/abs/2411.02397
ICCV 2025

作者提到，不是所有的视频都是平等地生成，有些简单的视频仅需要较少的推理步数即可达到理想生成质量，而有些复杂的视频则需要较多的推理步数，因此，笼统地分析模型特征在推理过程中的变化是不够全面的，需要结合视频的复杂程度来做动态的cache策略。

因此作者提出了AdaCache，该方法通过动态地分析当前特征与上次计算的特征的距离来判断接下来可以缓存多少步，这部分由一个固定的codebook完成，随后在得到的缓存步数内进行特征的复用，加速推理。同时作者还提出了一个动作正则化，该部分利用视频的时域信息，判断帧间的变化是否剧烈，若变化较大，则减少cache的步数，若变化较小，则增加cache步数。具体来说，作者用特征帧间差来表示动作的剧烈程度，并且作者还提出了一个动作梯度的概念来同时进行正则化：

开源：https://github.com/AdaCache-DiT/AdaCache

LeMiCa

FasterCache