FreeVideoLLM

文章主要是为了解决training-free VideoLLM的视频token数太多的问题,文章提出利用prompt对视频进行1)时域采样2)空间裁剪。 具体来说,1)将问题经过clip文本编码器进行特征提取,随后对视频每一帧进行特征提取,进行相似度计算,保留相似度高的帧。2)将一帧内的所有token特征与问题特征进行相似度计算,保留相似度最高的区域。 文章的思路比较简单,主要从减少视频token数量进行优化。