MagicComp

文章针对文生视频模型中的组合视频生成(多主体)存在的问题(属性混乱、位置错误等)进行了training-free的优化,具体来说,方法分为两个阶段:1、在条件阶段,对主体token的embedding进行优化(原prompt经过编码器后,主体token的embedding会出现混淆的情况)2、在去噪阶段,对指定token的attention进行mask优化,使其关注指定区域。