HoloCine

针对多镜头视频生成,提出了HoloCine,一次生成多镜头视频框架。 方法来说,同样需要用户提供分镜的timestamp以及各分镜的prompt,然后精心设计了self-attention和cross-attention提高prompt准确度和推理效率。 数据来自电影数据,通过镜头切分筛选,然后拼接连续的镜头满足不同时长,最后得到了400k条数据。