<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>EchoShot: Multi-Shot Portrait Video Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2506.15838">https://arxiv.org/abs/2506.15838</a> </li><li>NeurIPS 2025</li></ul> <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/A2515140-62D2-4A1D-9B3D-92388978AEF0/1_0018E897-AE3A-4449-8105-41AC5A7CA75F/Pasted%20Graphic.tiff" class="attr" data-apple-notes-zidentifier="07BE378C-A258-4165-AD9D-6C2053E2353E"></a> 文章针对多镜头的人物视频生成进行了研究,提出了一种针对人物的多镜头视频生成方法EchoShot。 该方法如图,通过人为构造多镜头prompt来生成,具体在模型方面,视频token的不同shot进行固定大小的t维度的位置编码偏移,以此来区分不同的shot;对于prompt,提出了TaRoPE,增强片段与指定prompt之间的联系,这里为什么不直接mask,作者说是因为这种方式能更好地让模型学习视频上下文一致的信息。 作者构造了一个数据集,用于训练该模型:ProtraitGala,该数据集包含600k个片段,400k个id,总共1h。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:自己构造(未开源)</li><li>硬件:3500 A100 GPU hours</li><li>开源:<a href="https://johnneywang.github.io/EchoShot-webpage/">https://johnneywang.github.io/EchoShot-webpage/</a> </li></ul>