VACE | lc's space

文章标题：VACE: All-in-One Video Creation and Editing
文章地址：https://arxiv.org/abs/2503.07598
ICCV2025

文章提出了首个基于video DiT完成多种视频生成及编辑任务的框架。作者首先将任务归为四类：T2V, R2V, V2V, MV2V。为了完成多种任务，需要满足多种模态的条件输入，因此设计了一个统一的条件单元Video Condition Unit（VCU），其包含[T, F, M]，T代表文本输入，F代表视频条件输入（包括所编辑的视频，深度图视频等等），M表示掩码，用于指示编辑区域。因此通过VCU可以表示多种任务：

在模型设计上，没有太多的亮点，感觉像一种范式。

将VCU通过tokenizer以及embedder之后，得到Context token，(a)全微调版本：将context token与video token进行相加输入到DiT中进行计算，(b)类似ControlNet训练额外的block，将Context token输入到相应的block中进行控制。值得注意的是，当R2V任务中，推理的Video Token会在前面增加与ref image数量相对应数量的token，并同时去噪生成。

PolyVivid

Phantom