<img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/09A8AFA0-2025-4226-A2CF-6E786190951F.png" style="background-color:initial;max-width:min(100%,1510px);max-height:min(808px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/09A8AFA0-2025-4226-A2CF-6E786190951F.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1510" height="808"> <ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2305.11000">https://arxiv.org/abs/2305.11000</a> </li><li>EMNLP 2023 findings</li></ul> 文章提出了SpeechGPT,一个端到端的,具有跨文本语音多模态对话的多模态大语言模型,能够理解和生成两个模态的内容。同时,作者构建了一个大规模的跨模态语音指令数据集。并且,作者使用了三阶段训练策略:模态调整预训练、跨模态指令微调以及模态链指令微调。文章同时也揭示了同一个模型处理多个模态的潜力。(AnyGPT就是该作者团队基于该成果之后的成果) 文章的主要贡献如下: <ul class="dashed" data-apple-notes-indent-amount="0"><li>第一个同时理解和生成多模态内容的大语言模型</li><li>构造了SpeechInstruct,第一个大规模的语音文本跨模态的指令数据集</li><li>展示了通过引入离散化表示的方式处理多模态内容的有效性</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/673C459E-6519-4345-85DF-EEF8D8B05008.png" style="background-color:initial;max-width:min(100%,1878px);max-height:min(732px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/673C459E-6519-4345-85DF-EEF8D8B05008.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1878" height="732"> 下面介绍模型结构,主要包含三个部分:离散单元提取器,大语言模型和单元声码器。首先对于离散单元提取器,作者使用了HuBERT模型将连续的语音信号转换成了一系列离散的单元,该模型以后会讲到,其大致思想就是利用K-means聚类算法提取语音信号的语义信息。第二部分为大语言模型,作者使用的是LLAMA。第三部分为单元声码器,作者训练了一个HiFi-GAN模型,解码得到的语音的离散表示,在这里作者引入了speaker embedding进行说话人的控制。 对于模型的训练,作者扩充了LLM的词表和embedding表,引入了语音的token,然后进入训练的第一阶段,模态调整预训练,此阶段就是利用未标记的语音数据对模型进行预测下一token的训练,第二阶段为跨模态指令微调,利用构造的数据集对模型进行微调,第三阶段为模态链指令微调,在此阶段作者使用LoRA的方式在阶段2的基础上进行微调。 作者给出了几个对话的例子展示模型的表现,但没有量化的指标(猜测这可能是没有中主会而是findings的原因之一),同时作者还指出了模型的限制和不足,首先,模型没有考虑声音的辅助信息,例如情感,语调等;其次,模型在生成语音回复之前要先生成文本的回复;最后,也是我认为最主要的,由于上下文限制,模型不支持多轮对话,这一点就足以拉下档次了。