MagicComp | lc's space

文章标题：MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
文章地址：https://arxiv.org/abs/2503.14428
arxiv

文章针对文生视频模型中的组合视频生成（多主体）存在的问题（属性混乱、位置错误等）进行了training-free的优化，具体来说，方法分为两个阶段：1、在条件阶段，对主体token的embedding进行优化（原prompt经过编码器后，主体token的embedding会出现混淆的情况）2、在去噪阶段，对指定token的attention进行mask优化，使其关注指定区域。

数据：无需训练数据
指标：T2V-CompBench; VBench
硬件：1 A100
开源：https://hong-yu-zhang.github.io/MagicComp-Page/

DiTCtrl

Video-MSG