IG-VLM

方法非常简单,就是将VLM的图像设置为视频序列采样6帧拼接后的图片,然后设置一些prompt进行引导。比较有启发意义吧这篇文章。应该是training-free利用VLM做视频理解的第一篇文章?