LLoVi

该方法利用的是LLM而非MLLM,将视频信息全部转换为纯文本,交给LLM进行推理。 文章提出了一个基于LLM的解决长视频问答的框架,该框架分成两阶段:首先使用短视频视觉描述模型对一个长视频采样得到的多个短片段生成文本描述,然后利用LLM聚合这些描述来回答给定的问题。另外,作者还提出了一个多轮总结的prompt使得模型首先对这些caption进行总结,然后再回答问题。文章对多个设计进行了实验,证明了方法的有效性,并在长视频基准EgoSchema和普通的基准上都达到了sota水准。 文章指出,短视频理解已经得到了飞速发展,但这些方法很难拓展到长视频理解当中,因为长视频需要复杂的长范围时序推理能力。大多数现有的方法都基于复杂的长范围时序建模机制:记忆序列、长范围特征库、时空图等等。受LLM在长范围推理的启发,文章探究了LLM在长视频问答当中的能力。同时,对于相关工作,文章指出缺少了量化评估和过于依赖非视觉特征;对于视频问答的benchmark,文章指出很多长视频问答benchmark可以由短片段来解决,并且提到EgoSchema benchmark适合用于评估该任务。