Video-ChatGPT | lc's space

文章标题：Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
文章地址：https://arxiv.org/abs/2306.05424
ACL 2024

文章提出了一个新的框架，使用多模态大模型用于视频理解和对话。具体来说模型的架构如主图，比较简单，即将视频每一帧经过CLIP提取特征，随后进行时域/空间上的池化，得到了两组特征，随后将其在token维度上拼接起来得到视频的embedding，最后使用可训练的线性层将其映射到文本embedding空间中。整个框架只对线性层进行了训练，对于训练，使用的数据为视频指令数据集进行指令微调，该数据集也是这篇文章提出的。随后对于模型的评估，除了视频问答外，文章还提出了一个基准，即用GPT对模型输出的文本进行评估，从而评估模型基于视频的文本生成能力。 1

数据：自己构建的指令微调数据集
指标：自己提出的benchmark；open-ended 视频QA
硬件：8 A100(40G)/bs32
开源：https://github.com/mbzuai-oryx/Video-ChatGPT

TS-LLaVA

Thinking in Space