EchoShot

文章针对多镜头的人物视频生成进行了研究,提出了一种针对人物的多镜头视频生成方法EchoShot。 该方法如图,通过人为构造多镜头prompt来生成,具体在模型方面,视频token的不同shot进行固定大小的t维度的位置编码偏移,以此来区分不同的shot;对于prompt,提出了TaRoPE,增强片段与指定prompt之间的联系,这里为什么不直接mask,作者说是因为这种方式能更好地让模型学习视频上下文一致的信息。 作者构造了一个数据集,用于训练该模型:ProtraitGala,该数据集包含600k个片段,400k个id,总共1h。