视频镜头切分模型

TransNetV2 很多论文都是用的它