<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>MV-S2V: Multi-View Subject-Consistent Video Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2601.17756">https://arxiv.org/abs/2601.17756</a> </li><li>arxiv</li></ul> <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/B0CB778C-4BCD-4715-A87B-F7156A3C6397/1_E2D88B2F-C60A-473A-9A7D-3A96101A82D4/Pasted%20Graphic%205.tiff" class="attr" data-apple-notes-zidentifier="419E9BA8-189E-4E9B-85F6-4FF2C7899354"></a> 文章提出了用于多视角主体一致的视频生成框架,基于T2V模型,条件注入方式为:将reference image通过vae编码后,以seq拼接方式输入到DiT中参与self-attention计算,在这里,提出了相应的位置编码TS-RoPE,它在原有的空间上,在时间维度进行了固定的偏移(video与reference image、不同subject的reference image之间也有),并且对于同一个subject,不同的reference image按时间排列,不存在任何空间位置的偏移。对于不进行空间位置偏移,作者的解释为:在基模上不存在这种偏移,这种方式需要从头开始学习。对于固定时间偏移,作者认为能让模型区分video和reference image。 对于数据的构造,pipeline如下: <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/ABCF2A3E-7017-4C58-AB09-71BB9C8B73C2/1_598343E0-5C2D-4AC1-8C00-CF90D8F20571/Pasted%20Graphic%206.tiff" class="attr" data-apple-notes-zidentifier="9EB29B4A-C1A0-44C9-B198-F493CA7A45FD"></a>