IG-VLM | lc's space

文章标题：An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM
文章地址：https://arxiv.org/abs/2403.18406
arxiv

方法非常简单，就是将VLM的图像设置为视频序列采样6帧拼接后的图片，然后设置一些prompt进行引导。比较有启发意义吧这篇文章。应该是training-free利用VLM做视频理解的第一篇文章？