Video-ChatGPT

文章提出了一个新的框架,使用多模态大模型用于视频理解和对话。具体来说模型的架构如主图,比较简单,即将视频每一帧经过CLIP提取特征,随后进行时域/空间上的池化,得到了两组特征,随后将其在token维度上拼接起来得到视频的embedding,最后使用可训练的线性层将其映射到文本embedding空间中。 整个框架只对线性层进行了训练,对于训练,使用的数据为视频指令数据集进行指令微调,该数据集也是这篇文章提出的。随后对于模型的评估,除了视频问答外,文章还提出了一个基准,即用GPT对模型输出的文本进行评估,从而评估模型基于视频的文本生成能力。 1