FreeVideoLLM | lc's space

文章标题：FREE VIDEO-LLM: PROMPT-GUIDED VISUAL PERCEPTION FOR EFFICIENT TRAINING-FREE VIDEO LLMS
文章地址：https://arxiv.org/abs/2410.10441
arxiv

文章主要是为了解决training-free VideoLLM的视频token数太多的问题，文章提出利用prompt对视频进行1）时域采样2）空间裁剪。具体来说，1）将问题经过clip文本编码器进行特征提取，随后对视频每一帧进行特征提取，进行相似度计算，保留相似度高的帧。2）将一帧内的所有token特征与问题特征进行相似度计算，保留相似度最高的区域。文章的思路比较简单，主要从减少视频token数量进行优化。

数据：无需训练
指标：open-ended QA
硬件：未提及
开源：https://github.com/contrastive/FreeVideoLLM

Thinking in Space

IG-VLM