CausVid

作者提到当前视频生成模型的双向注意力在不善于交互式应用,每一帧的生成都需要模型处理包括未来帧的整个序列。作者通过将一个预训练的双向扩散模型调整成实时生成每一帧的因果模型来解决该问题。同时为了降低每一帧生成的延迟,作者拓展分布匹配蒸馏(DMD)到视频当中,使得扩散步数从50步降低到4步。 具体来说就是利用mask将attention改成因果形式,随后通过教师模型的ODE采样轨迹进行学生模型的初始化,最后用DMD得到最终模型。