<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2506.15838">https://arxiv.org/abs/2510.20822</a> </li><li>CVPR 2026</li></ul> <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/352B042B-5993-4405-9E6E-A80665E42AD5/1_DE4CCE82-4DF3-4BBA-9348-EB421A6EC44F/Pasted%20Graphic%201.tiff" class="attr" data-apple-notes-zidentifier="0D2D3E42-DC9B-4659-B405-807ACEF2DF5C"></a> 针对多镜头视频生成,提出了HoloCine,一次生成多镜头视频框架。 方法来说,同样需要用户提供分镜的timestamp以及各分镜的prompt,然后精心设计了self-attention和cross-attention提高prompt准确度和推理效率。 数据来自电影数据,通过镜头切分筛选,然后拼接连续的镜头满足不同时长,最后得到了400k条数据。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:自己构造(未开源)</li><li>硬件:128 H800</li><li>开源:<a href="https://holo-cine.github.io/">https://holo-cine.github.io/</a> </li></ul>