FreeVA | lc's space

文章标题：FreeVA: Offline MLLM as Training-Free Video Assistant
文章地址：https://arxiv.org/abs/2405.07798
arxiv

文章提出了一种training-free的方法将图像MLLM拓展到zero-shot的视频理解任务上，通过合适的时序聚合，表现超过了使用视频指令微调的那些模型。同时作者指出，当前主流的视频MLLM通过图像MLLM初始化并在其基础上进行视频指令微调，作者发现了一个反直觉并且在之前被忽视的方面：使用VideoInstruct-100k指令微调后的LLaVA在视频问答表现上不如原来的LLaVA，这使得作者呼吁大家重新审视使用视频指令微调的有效性以及视频MLLM是否真的比原来的图像MLLM具备更多的知识。并且作者提到，对于zero-shot视频问答评估基准来说，GPT的API版本会显著影响最终的结果，在比较中统一该版本是非常重要的。文章提出的方法非常简单，即在原本的图像MLLM上进行扩展：将视频采样得到一系列帧，利用编码器提取特征以及映射到文本embedding空间，随后进行时序聚合。作者尝试了很多种聚合方法：1、稀疏聚合：将视频特征序列在时间维度、空间维度或两者结果相加上进行全局池化得到最终视频embedding。2、稠密聚合：将所有帧的所有特征全部保留下来拼接为一个序列，考虑到LLM的token限制，作者考虑在总token数不变的情况下增加视频时长，即按一定比例压缩每一帧的token数从而提高帧数。实验证明了利用这种方法，VideoChatGPT的表现还不如原版的LLaVA，揭示了视频指令微调可能没什么作用。

数据：无需训练
指标：MSVD-QA, ActivityNet-QA, MSRVTT-QA，VideoChatGPT基准
硬件：1 A100(40G)
开源：https://github.com/whwu95/FreeVA

IG-VLM

VTimeLLM