SF-LLaVA

文章利用LLaVA-NeXT(一个开源的增加了图片模态的大语言模型)完成视频任务,无需任何训练,如题,目标是提出一个无需训练的VideoLLM的baseline。 具体来说文章的思路非常简单,将视频的特征分成两部分,Slow和Fast,分别对应两个采样率和特征分辨率,其中Slow特征采样率比较低,特征分辨率比较高;Fast则反之。原因是Slow更关注空间细节和语义特征,Fast更关注动作线索。通过提取这两种特征使得LLaVA更好地理解该视频。然后将视频的特征与文本问题输入到LLaVA中。