TS-LLaVA

  • 文章标题:TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models
  • 文章地址:https://arxiv.org/abs/2411.11066
  • arxiv
这篇文章的任务是利用图片多模态大模型做training-free的视频理解,在该任务下如何对视频的token进行压缩是非常关键的一环,文章对多种压缩方式进行了比较和分析,并基于此提出了一个全新的压缩方法,该方法结合了网格图和标准采样的压缩方法,在一些指标上达到或接近了SOTA。下面是不同压缩方法的对比: 具体来说,该压缩方法分为两个分支,首先是缩略图的构造,从视频中先等距抽取6个帧,然后按顺序将其拼接为网格缩略图,随后经过visionTower得到embedding,第二个分支将所有帧经过VisionTower得到token后进行标准采样得到,随后将这两个分支的embedding拼接起来得到整个视频的embedding。 实验也证明该方法在training-free的方法中达到了最好的效果。