DiTCtrl

  • 文章标题:DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation
  • 文章地址:https://arxiv.org/abs/2412.18597
  • CVPR 2025
这篇文章分析了CogVideoX文生视频模型当中MMDiT的attention矩阵,发现其具有同UNet的self/cross attention的性质,然后利用该性质同MasaCtrl进行attention的fusion完成了多prompt的长视频生成。