<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>FreeVA: Offline MLLM as Training-Free Video Assistant</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2405.07798">https://arxiv.org/abs/2405.07798</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1736301966/E709A972-7F99-42B5-B047-39C09D3BBC25.png" style="background-color:initial;max-width:min(100%,1910px);max-height:min(1188px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1736301966/E709A972-7F99-42B5-B047-39C09D3BBC25.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1910" height="1188"> 文章提出了一种training-free的方法将图像MLLM拓展到zero-shot的视频理解任务上,通过合适的时序聚合,表现超过了使用视频指令微调的那些模型。同时作者指出,当前主流的视频MLLM通过图像MLLM初始化并在其基础上进行视频指令微调,作者发现了一个反直觉并且在之前被忽视的方面:使用VideoInstruct-100k指令微调后的LLaVA在视频问答表现上不如原来的LLaVA,这使得作者呼吁大家重新审视使用视频指令微调的有效性以及视频MLLM是否真的比原来的图像MLLM具备更多的知识。并且作者提到,对于zero-shot视频问答评估基准来说,GPT的API版本会显著影响最终的结果,在比较中统一该版本是非常重要的。 文章提出的方法非常简单,即在原本的图像MLLM上进行扩展:将视频采样得到一系列帧,利用编码器提取特征以及映射到文本embedding空间,随后进行时序聚合。作者尝试了很多种聚合方法:1、稀疏聚合:将视频特征序列在时间维度、空间维度或两者结果相加上进行全局池化得到最终视频embedding。2、稠密聚合:将所有帧的所有特征全部保留下来拼接为一个序列,考虑到LLM的token限制,作者考虑在总token数不变的情况下增加视频时长,即按一定比例压缩每一帧的token数从而提高帧数。 实验证明了利用这种方法,VideoChatGPT的表现还不如原版的LLaVA,揭示了视频指令微调可能没什么作用。 <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1736304616/12E3C467-7450-44EF-A73A-70188C624C78.png" style="background-color:initial;max-width:min(100%,1914px);max-height:min(1656px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1736304616/12E3C467-7450-44EF-A73A-70188C624C78.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1914" height="1656"> <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练</li><li><span style="font-family: '.PingFangUITextSC-Regular'">指标:</span>MSVD-QA, ActivityNet-QA, MSRVTT-QA,VideoChatGPT基准</li><li>硬件:1 A100(40G)</li><li>开源:<a href="https://github.com/whwu95/FreeVA">https://github.com/whwu95/FreeVA</a> </li></ul>