AnalysisAttentionVDiT

文章对基于DiT的文生视频模型的attention进行了深入分析,并发现了三个重要的特性:结构性、稀疏性和注意力下沉。 具体来说,结构性代表了attention矩阵具有时空局部性的特点,对角线条纹代表了空间局部性,非对角线条纹代表了时域局部性,并且作者发现,将特定层的self-attention进行替换,即可得到源视频相同的布局(在相似prompt下),揭示了self-attention对特定prompt的结构进行了编码。即可通过简单的self-attention层替换即可完成简单的视频编辑任务。 并且作者发现,视频帧对文本token序列的第一个attention最高,且仅用第一个token即可生成类似图像。 另外两个特性对可控图像生成帮助不大,因此在此不做分析。