EchoShot | lc's space

文章标题：EchoShot: Multi-Shot Portrait Video Generation
文章地址：https://arxiv.org/abs/2506.15838
NeurIPS 2025

当前大多数高质量的角色视频模型都针对于单镜头的生成，而身份一致的、内容灵活控制的多镜头生成更贴近现实应用。文章针对多镜头的人物视频生成进行了研究，提出了一种针对人物的多镜头视频生成方法EchoShot。该方法如图，通过人为构造多镜头prompt来生成，具体在模型方面，视频token的不同shot进行固定大小的t维度的位置编码偏移，以此来区分不同的shot；对于prompt，提出了TaRoPE，增强片段与指定prompt之间的联系，这里为什么不直接mask，作者说是因为这种方式能更好地让模型学习视频上下文一致的信息。作者构造了一个数据集，用于训练该模型：ProtraitGala，该数据集包含600k个片段，400k个id，总共1h。

数据：自己构造（未开源）
硬件：3500 A100 GPU hours
开源：https://johnneywang.github.io/EchoShot-webpage/

OmniTransfer

HoloCine