<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2502.01776">https://arxiv.org/abs/2502.01776</a> </li><li>ICML 2025</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_8be6b9db-c5ea-4bee-885c-532d21da7656/public" style="background-color:initial;max-width:min(100%,2112px);max-height:min(922px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_8be6b9db-c5ea-4bee-885c-532d21da7656/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2112" height="922"> 作者提到,视频DiT中的3D full attention具有稀疏性,并且不同的head具有不同的稀疏模式,可分为Spatial head 和 Temporal head,其分别关注空间的建模和时域的建模,这两种head可以通过稀疏性的特征进行加速计算(CUDA算子)。作者提到在推理时需要对每个head进行分类,通过选取少量Q进行计算,以两种方式+全attention的计算方式,比较他们的差异,通过该差异判断其head类型,从而选取不同的稀疏加速计算策略。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>开源:<a href="https://github.com/svg-project/Sparse-VideoGen">https://github.com/svg-project/Sparse-VideoGen</a> </li></ul>