SVG | lc's space

文章标题：Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
文章地址：https://arxiv.org/abs/2502.01776
ICML 2025

作者提到，视频DiT中的3D full attention具有稀疏性，并且不同的head具有不同的稀疏模式，可分为Spatial head 和 Temporal head，其分别关注空间的建模和时域的建模，这两种head可以通过稀疏性的特征进行加速计算（CUDA算子）。作者提到在推理时需要对每个head进行分类，通过选取少量Q进行计算，以两种方式+全attention的计算方式，比较他们的差异，通过该差异判断其head类型，从而选取不同的稀疏加速计算策略。

开源：https://github.com/svg-project/Sparse-VideoGen

PAB

TeaCache