DreamID-Omni

作者提到当前的R2AV,RV2AV以及RA2V的方法都把这些当作单独的任务,作者认为他们都是一样的目标:都是将静态的id anchor(图像或音频)映射到动态的音视频中。统一这些任务会遇到几个问题:1、如何设计统一的模型框架;2、如何解决多人场景下混淆的问题;3、如何设计训练策略防止多任务冲突。 为了解决这些问题,作者提出了DreamID-Omni,框架如上图,将ref条件(image和audio)与目标token进行序列上的拼接完成条件注入,源视频和驱动音频通过逐元素add的方式注入。在位置编码中,为了将音视频在时序上对应(时序上token数量不一样),将音频token的位置编码进行缩放,到与视频能够呈对角映射形式(参考Ovi论文,如下图)。 随后,为了区分reference token以及区分不同的reference,设定固定的边界,同一个ref在同一个时序窗口中。为了在文本端避免混淆,文本进行结构化处理。在训练时,分三个阶段:1in-pair R2AV2cross-pair R2AV3、联合训练。每个阶段依次变难。 数据构造pipeline: