MS-S2V | lc's space

文章标题：MV-S2V: Multi-View Subject-Consistent Video Generation
文章地址：https://arxiv.org/abs/2601.17756
arxiv

文章提出了用于多视角主体一致的视频生成框架，基于T2V模型，条件注入方式为：将reference image通过vae编码后，以seq拼接方式输入到DiT中参与self-attention计算，在这里，提出了相应的位置编码TS-RoPE，它在原有的空间上，在时间维度进行了固定的偏移（video与reference image、不同subject的reference image之间也有），并且对于同一个subject，不同的reference image按时间排列，不存在任何空间位置的偏移。对于不进行空间位置偏移，作者的解释为：在基模上不存在这种偏移，这种方式需要从头开始学习。对于固定时间偏移，作者认为能让模型区分video和reference image。对于数据的构造，pipeline如下：

WildActor

OmniTransfer