SVG

  • 文章标题:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
  • 文章地址:https://arxiv.org/abs/2502.01776
  • ICML 2025
作者提到,视频DiT中的3D full attention具有稀疏性,并且不同的head具有不同的稀疏模式,可分为Spatial head 和 Temporal head,其分别关注空间的建模和时域的建模,这两种head可以通过稀疏性的特征进行加速计算(CUDA算子)。作者提到在推理时需要对每个head进行分类,通过选取少量Q进行计算,以两种方式+全attention的计算方式,比较他们的差异,通过该差异判断其head类型,从而选取不同的稀疏加速计算策略。