PolyVivid

  • 文章标题:PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
  • 文章地址:https://arxiv.org/abs/2506.07848
  • NIPS 2025
文章提出了一个新的S2V模型,其架构如上图。 首先利用LLaVA,将prompt和参考图像以一种特定的格式共同进行编码,得到文本-图像混合的语义条件,因为这样得到的图像信息往往缺少细粒度的特征,因此,将参考图像通过VAE得到更细粒度的图像特征token,随后将这两种token通过作者提出的交互式3D-RoPE进行位置编码后,通过一个MM-Atention进行信息混合,输出得到相互增强的文本token和图像token,随后将这两种token引入到视频生成过程中(在这里值得注意的是,该MM-Attention存在于每一个block,而不是全局的,也就是说,每一层的两种混合token是不一样的,这里为什么要这么设计?),如何引入呢?作者在这里展示了两种常见的MM-DiT的额外条件注入的范式:token拼接和adapter。 作者提到,token拼接的形式容易受视频长度的影响,因为图像token与不同video token的距离不同,在attention计算过程中也会有差异,更远的token往往参与更少。而adapter的形式的问题在于,adapter特征的维度与视频特征的维度差异过大,阻碍了有效的条件注入。因此作者提出了他的方案,该方案由三个attention组成,分别负责文本,视频,图像token之间的交互,其中文本-视频的attention使用原有的参数,文本-图像之间的attention(也就是上面提到的信息混合Attention)由原参数通过lora微调得到,图像-视频之间的attention(细粒度id信息注入)同样由lora微调得到。