BindWeave | lc's space

文章标题：BINDWEAVE: SUBJECT-CONSISTENT VIDEO GENERATION VIA CROSS-MODAL INTEGRATION
文章地址：https://arxiv.org/abs/2510.00438
ICLR 2026

模型框架如上图，主要创新点在于左半部分，所谓的跨模态混合信息就是利用MLLM做一个信息融合，得到hidden state后接入一个可训练的MLP作为混合信息，该信息与原文本信息进行concate得到联合信息，输入到原模型的文本cross attention当中。此外，为了引入细粒度的参考图像信息，将参考图像经过vae进行编码后以一种类似Wan2.1-I2V的方式进行条件输入，如下图：

另外还同Wan2.1-I2V将参考图像的clip特征以cross attention方式注入到模型中，这个地方多参考图像是如何处理的？文本和图像的clip特征在seq_len维度上进行拼接（同多模态信息与文本信息）

SkyReels-A2

Saber