<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Analysis of Attention in Video Diffusion Transformers</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2504.10317">https://arxiv.org/abs/2504.10317</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749089671/06A5AEF5-ECFE-4A28-864D-2497A7D93DEB.png" style="background-color:initial;max-width:min(100%,1920px);max-height:min(1250px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749089671/06A5AEF5-ECFE-4A28-864D-2497A7D93DEB.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1920" height="1250"> 文章对基于DiT的文生视频模型的attention进行了深入分析,并发现了三个重要的特性:结构性、稀疏性和注意力下沉。 具体来说,结构性代表了attention矩阵具有时空局部性的特点,对角线条纹代表了空间局部性,非对角线条纹代表了时域局部性,并且作者发现,将特定层的self-attention进行替换,即可得到源视频相同的布局(在相似prompt下),揭示了self-attention对特定prompt的结构进行了编码。即可通过简单的self-attention层替换即可完成简单的视频编辑任务。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749090375/06B8D365-1866-4D06-A195-EF555D34AE0F.png" style="background-color:initial;max-width:min(100%,1940px);max-height:min(764px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749090375/06B8D365-1866-4D06-A195-EF555D34AE0F.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1940" height="764"> 并且作者发现,视频帧对文本token序列的第一个attention最高,且仅用第一个token即可生成类似图像。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1749090375/A635AB1A-2E3B-42C4-A3AF-72A9FEAD352B.png" style="background-color:initial;max-width:min(100%,1944px);max-height:min(608px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1749090375/A635AB1A-2E3B-42C4-A3AF-72A9FEAD352B.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1944" height="608"> 另外两个特性对可控图像生成帮助不大,因此在此不做分析。