AnalysisAttentionVDiT

文章标题：Analysis of Attention in Video Diffusion Transformers
文章地址：https://arxiv.org/abs/2504.10317
arxiv

文章对基于DiT的文生视频模型的attention进行了深入分析，并发现了三个重要的特性：结构性、稀疏性和注意力下沉。具体来说，结构性代表了attention矩阵具有时空局部性的特点，对角线条纹代表了空间局部性，非对角线条纹代表了时域局部性，并且作者发现，将特定层的self-attention进行替换，即可得到源视频相同的布局（在相似prompt下），揭示了self-attention对特定prompt的结构进行了编码。即可通过简单的self-attention层替换即可完成简单的视频编辑任务。

并且作者发现，视频帧对文本token序列的第一个attention最高，且仅用第一个token即可生成类似图像。

另外两个特性对可控图像生成帮助不大，因此在此不做分析。

RoPECraft

DiTFlow