VACE

文章提出了首个基于video DiT完成多种视频生成及编辑任务的框架。作者首先将任务归为四类:T2V, R2V, V2V, MV2V。为了完成多种任务,需要满足多种模态的条件输入,因此设计了一个统一的条件单元Video Condition Unit(VCU),其包含[T, F, M],T代表文本输入,F代表视频条件输入(包括所编辑的视频,深度图视频等等),M表示掩码,用于指示编辑区域。因此通过VCU可以表示多种任务: 在模型设计上,没有太多的亮点,感觉像一种范式。 将VCU通过tokenizer以及embedder之后,得到Context token,(a)全微调版本:将context token与video token进行相加输入到DiT中进行计算,(b)类似ControlNet训练额外的block,将Context token输入到相应的block中进行控制。值得注意的是,当R2V任务中,推理的Video Token会在前面增加与ref image数量相对应数量的token,并同时去噪生成。