<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2506.07848">https://arxiv.org/abs/2506.07848</a> </li><li>NIPS 2025</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_fe90a1ce-7e8a-4bb5-b47c-9849862e2aaa/public" style="background-color:initial;max-width:min(100%,2460px);max-height:min(1578px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_fe90a1ce-7e8a-4bb5-b47c-9849862e2aaa/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2460" height="1578"> 文章提出了一个新的S2V模型,其架构如上图。 首先利用LLaVA,将prompt和参考图像以一种特定的格式共同进行编码,得到文本-图像混合的语义条件,因为这样得到的图像信息往往缺少细粒度的特征,因此,将参考图像通过VAE得到更细粒度的图像特征token,随后将这两种token通过作者提出的交互式3D-RoPE进行位置编码后,通过一个MM-Atention进行信息混合,输出得到相互增强的文本token和图像token,随后将这两种token引入到视频生成过程中(在这里值得注意的是,该MM-Attention存在于每一个block,而不是全局的,也就是说,每一层的两种混合token是不一样的,这里为什么要这么设计?),如何引入呢?作者在这里展示了两种常见的MM-DiT的额外条件注入的范式:token拼接和adapter。 <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_b81189fc-bf28-4ef7-b27b-3d9d76ff0446/public" style="background-color:initial;max-width:min(100%,2552px);max-height:min(1190px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_b81189fc-bf28-4ef7-b27b-3d9d76ff0446/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2552" height="1190"> 作者提到,token拼接的形式容易受视频长度的影响,因为图像token与不同video token的距离不同,在attention计算过程中也会有差异,更远的token往往参与更少。而adapter的形式的问题在于,adapter特征的维度与视频特征的维度差异过大,阻碍了有效的条件注入。因此作者提出了他的方案,该方案由三个attention组成,分别负责文本,视频,图像token之间的交互,其中文本-视频的attention使用原有的参数,文本-图像之间的attention(也就是上面提到的信息混合Attention)由原参数通过lora微调得到,图像-视频之间的attention(细粒度id信息注入)同样由lora微调得到。