FreeNoise

文章针对现有文生视频模型只能输出固定帧数的视频的缺点进行优化,使其能够生成长视频且支持多prompt控制生成。具体来说,先对噪声进行拓展,并将其拓展部分进行小窗口随机重排序,从而得到了长序列噪声;但是原模型不能很好地处理长噪声(预训练数据固定帧数),因此提出了基于滑动窗口的注意力混合机制,即每次计算注意力都维持原序列长度,然后再进行加权混合,从而使得模型能够处理长序列噪声。对于多prompt,该方法进行了不同时间步的text embedding混合引导策略。