MS-S2V

文章提出了用于多视角主体一致的视频生成框架,基于T2V模型,条件注入方式为:将reference image通过vae编码后,以seq拼接方式输入到DiT中参与self-attention计算,在这里,提出了相应的位置编码TS-RoPE,它在原有的空间上,在时间维度进行了固定的偏移(video与reference image、不同subject的reference image之间也有),并且对于同一个subject,不同的reference image按时间排列,不存在任何空间位置的偏移。对于不进行空间位置偏移,作者的解释为:在基模上不存在这种偏移,这种方式需要从头开始学习。对于固定时间偏移,作者认为能让模型区分video和reference image。 对于数据的构造,pipeline如下: