SpeechGPT

  • 文章标题:SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
  • 文章地址:https://arxiv.org/abs/2305.11000
  • EMNLP 2023 findings
文章提出了SpeechGPT,一个端到端的,具有跨文本语音多模态对话的多模态大语言模型,能够理解和生成两个模态的内容。同时,作者构建了一个大规模的跨模态语音指令数据集。并且,作者使用了三阶段训练策略:模态调整预训练、跨模态指令微调以及模态链指令微调。文章同时也揭示了同一个模型处理多个模态的潜力。(AnyGPT就是该作者团队基于该成果之后的成果) 文章的主要贡献如下:
  • 第一个同时理解和生成多模态内容的大语言模型
  • 构造了SpeechInstruct,第一个大规模的语音文本跨模态的指令数据集
  • 展示了通过引入离散化表示的方式处理多模态内容的有效性
下面介绍模型结构,主要包含三个部分:离散单元提取器,大语言模型和单元声码器。首先对于离散单元提取器,作者使用了HuBERT模型将连续的语音信号转换成了一系列离散的单元,该模型以后会讲到,其大致思想就是利用K-means聚类算法提取语音信号的语义信息。第二部分为大语言模型,作者使用的是LLAMA。第三部分为单元声码器,作者训练了一个HiFi-GAN模型,解码得到的语音的离散表示,在这里作者引入了speaker embedding进行说话人的控制。 对于模型的训练,作者扩充了LLM的词表和embedding表,引入了语音的token,然后进入训练的第一阶段,模态调整预训练,此阶段就是利用未标记的语音数据对模型进行预测下一token的训练,第二阶段为跨模态指令微调,利用构造的数据集对模型进行微调,第三阶段为模态链指令微调,在此阶段作者使用LoRA的方式在阶段2的基础上进行微调。 作者给出了几个对话的例子展示模型的表现,但没有量化的指标(猜测这可能是没有中主会而是findings的原因之一),同时作者还指出了模型的限制和不足,首先,模型没有考虑声音的辅助信息,例如情感,语调等;其次,模型在生成语音回复之前要先生成文本的回复;最后,也是我认为最主要的,由于上下文限制,模型不支持多轮对话,这一点就足以拉下档次了。