TS-LLaVA | lc's space

文章标题：TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models
文章地址：https://arxiv.org/abs/2411.11066
arxiv

这篇文章的任务是利用图片多模态大模型做training-free的视频理解，在该任务下如何对视频的token进行压缩是非常关键的一环，文章对多种压缩方式进行了比较和分析，并基于此提出了一个全新的压缩方法，该方法结合了网格图和标准采样的压缩方法，在一些指标上达到或接近了SOTA。下面是不同压缩方法的对比：

具体来说，该压缩方法分为两个分支，首先是缩略图的构造，从视频中先等距抽取6个帧，然后按顺序将其拼接为网格缩略图，随后经过visionTower得到embedding，第二个分支将所有帧经过VisionTower得到token后进行标准采样得到，随后将这两个分支的embedding拼接起来得到整个视频的embedding。

实验也证明该方法在training-free的方法中达到了最好的效果。

数据：training-free
指标：multi-choice QA; MVBench; MLVU
硬件：1 A100
开源：https://github.com/tingyu215/TS-LLaVA

MIP-Adapter

Video-ChatGPT