FreeVA

文章提出了一种training-free的方法将图像MLLM拓展到zero-shot的视频理解任务上,通过合适的时序聚合,表现超过了使用视频指令微调的那些模型。同时作者指出,当前主流的视频MLLM通过图像MLLM初始化并在其基础上进行视频指令微调,作者发现了一个反直觉并且在之前被忽视的方面:使用VideoInstruct-100k指令微调后的LLaVA在视频问答表现上不如原来的LLaVA,这使得作者呼吁大家重新审视使用视频指令微调的有效性以及视频MLLM是否真的比原来的图像MLLM具备更多的知识。并且作者提到,对于zero-shot视频问答评估基准来说,GPT的API版本会显著影响最终的结果,在比较中统一该版本是非常重要的。 文章提出的方法非常简单,即在原本的图像MLLM上进行扩展:将视频采样得到一系列帧,利用编码器提取特征以及映射到文本embedding空间,随后进行时序聚合。作者尝试了很多种聚合方法:1、稀疏聚合:将视频特征序列在时间维度、空间维度或两者结果相加上进行全局池化得到最终视频embedding。2、稠密聚合:将所有帧的所有特征全部保留下来拼接为一个序列,考虑到LLM的token限制,作者考虑在总token数不变的情况下增加视频时长,即按一定比例压缩每一帧的token数从而提高帧数。 实验证明了利用这种方法,VideoChatGPT的表现还不如原版的LLaVA,揭示了视频指令微调可能没什么作用。