PolyVivid | lc's space

文章标题：PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
文章地址：https://arxiv.org/abs/2506.07848
NIPS 2025

文章提出了一个新的S2V模型，其架构如上图。首先利用LLaVA，将prompt和参考图像以一种特定的格式共同进行编码，得到文本-图像混合的语义条件，因为这样得到的图像信息往往缺少细粒度的特征，因此，将参考图像通过VAE得到更细粒度的图像特征token，随后将这两种token通过作者提出的交互式3D-RoPE进行位置编码后，通过一个MM-Atention进行信息混合，输出得到相互增强的文本token和图像token，随后将这两种token引入到视频生成过程中（在这里值得注意的是，该MM-Attention存在于每一个block，而不是全局的，也就是说，每一层的两种混合token是不一样的，这里为什么要这么设计？），如何引入呢？作者在这里展示了两种常见的MM-DiT的额外条件注入的范式：token拼接和adapter。

作者提到，token拼接的形式容易受视频长度的影响，因为图像token与不同video token的距离不同，在attention计算过程中也会有差异，更远的token往往参与更少。而adapter的形式的问题在于，adapter特征的维度与视频特征的维度差异过大，阻碍了有效的条件注入。因此作者提出了他的方案，该方案由三个attention组成，分别负责文本，视频，图像token之间的交互，其中文本-视频的attention使用原有的参数，文本-图像之间的attention（也就是上面提到的信息混合Attention）由原参数通过lora微调得到，图像-视频之间的attention（细粒度id信息注入）同样由lora微调得到。

MAGREF

VACE