SpeechGPT | lc's space

文章标题：SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
文章地址：https://arxiv.org/abs/2305.11000
EMNLP 2023 findings

文章提出了SpeechGPT，一个端到端的，具有跨文本语音多模态对话的多模态大语言模型，能够理解和生成两个模态的内容。同时，作者构建了一个大规模的跨模态语音指令数据集。并且，作者使用了三阶段训练策略：模态调整预训练、跨模态指令微调以及模态链指令微调。文章同时也揭示了同一个模型处理多个模态的潜力。（AnyGPT就是该作者团队基于该成果之后的成果）文章的主要贡献如下：

第一个同时理解和生成多模态内容的大语言模型
构造了SpeechInstruct，第一个大规模的语音文本跨模态的指令数据集
展示了通过引入离散化表示的方式处理多模态内容的有效性

下面介绍模型结构，主要包含三个部分：离散单元提取器，大语言模型和单元声码器。首先对于离散单元提取器，作者使用了HuBERT模型将连续的语音信号转换成了一系列离散的单元，该模型以后会讲到，其大致思想就是利用K-means聚类算法提取语音信号的语义信息。第二部分为大语言模型，作者使用的是LLAMA。第三部分为单元声码器，作者训练了一个HiFi-GAN模型，解码得到的语音的离散表示，在这里作者引入了speaker embedding进行说话人的控制。对于模型的训练，作者扩充了LLM的词表和embedding表，引入了语音的token，然后进入训练的第一阶段，模态调整预训练，此阶段就是利用未标记的语音数据对模型进行预测下一token的训练，第二阶段为跨模态指令微调，利用构造的数据集对模型进行微调，第三阶段为模态链指令微调，在此阶段作者使用LoRA的方式在阶段2的基础上进行微调。作者给出了几个对话的例子展示模型的表现，但没有量化的指标（猜测这可能是没有中主会而是findings的原因之一），同时作者还指出了模型的限制和不足，首先，模型没有考虑声音的辅助信息，例如情感，语调等；其次，模型在生成语音回复之前要先生成文本的回复；最后，也是我认为最主要的，由于上下文限制，模型不支持多轮对话，这一点就足以拉下档次了。

CAM++

SoundStorm