BindWeave

  • 文章标题:BINDWEAVE: SUBJECT-CONSISTENT VIDEO GENERATION VIA CROSS-MODAL INTEGRATION
  • 文章地址:https://arxiv.org/abs/2510.00438
  • arxiv 2025(ICLR2026在投4466)
模型框架如上图,主要创新点在于左半部分,所谓的跨模态混合信息就是利用MLLM做一个信息融合,得到hidden state后接入一个可训练的MLP作为混合信息,该信息与原文本信息进行concate得到联合信息,输入到原模型的文本cross attention当中。此外,为了引入细粒度的参考图像信息,将参考图像经过vae进行编码后以一种类似Wan2.1-I2V的方式进行条件输入,如下图: 另外还同Wan2.1-I2V将参考图像的clip特征以cross attention方式注入到模型中,这个地方多参考图像是如何处理的?