DreamID-Omni | lc's space

文章标题：DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation
文章地址：https://arxiv.org/abs/2602.12160
ICML 2026

作者提到当前的R2AV，RV2AV以及RA2V的方法都把这些当作单独的任务，作者认为他们都是一样的目标：都是将静态的id anchor（图像或音频）映射到动态的音视频中。统一这些任务会遇到几个问题：1、如何设计统一的模型框架；2、如何解决多人场景下混淆的问题；3、如何设计训练策略防止多任务冲突。为了解决这些问题，作者提出了DreamID-Omni，框架如上图，将ref条件（image和audio）与目标token进行序列上的拼接完成条件注入，源视频和驱动音频通过逐元素add的方式注入。在位置编码中，为了将音视频在时序上对应（时序上token数量不一样），将音频token的位置编码进行缩放，到与视频能够呈对角映射形式（参考Ovi论文，如下图）。

随后，为了区分reference token以及区分不同的reference，设定固定的边界，同一个ref在同一个时序窗口中。为了在文本端避免混淆，文本进行结构化处理。在训练时，分三个阶段：1、in-pair R2AV；2、cross-pair R2AV；3、联合训练。每个阶段依次变难。数据构造pipeline：

ShotStream

Flow-DPO