SpeechTokenizer | lc's space

文章标题：SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models
文章地址：https://arxiv.org/abs/2308.16692
accepted by ICLR 2024

文章提到了现有的语音tokenizer要么只提取语义特征（与文本对齐），要么只提取声学特征（音色等），要么将两者同时利用起来（有较大的信息冗余）。为了解决该问题，文章有三方面贡献： - 首个评估语音token质量的benchmark：SLMTokBench - 同时包含语义和声学特征的语音tokenizer：SpeechTokenizer - 用SpeechTokenizer的统一模型USLM 首先介绍SLMTokBench，它主要从两方面考察语音token的质量：1.文本的对齐度；2.语音信息的有效保留度。对于文本对齐度，文章通过计算语音token与文本的互信息来考察：

其中q（）为参数为θ的下游模型，用于拟合式中的条件分布。对于语音信息的保留度，作者将token重新生成语音，再利用统一的模型计算文本保留度和说话人特征相似度。可以看到基于该benchmark，不同的token具有不同的特点，SpeechTokenizer则在两方面都表现的很好：下面介绍一下SpeechTokenizer，主图即其结构。其实他的思想很简单，就是在Encodec的基础上使用了HuBERT提取的特征对RVQ第一层的向量进行了指导（师生模型），从而增强了RVQ-1的语义信息，残差结构将语义信息与声学特征解耦，使得RVQ2:8提取辅助的声学特征。最后介绍文章使用到的模型，其结构为上图后半部分。由AR与NAR两部分模型组成，其中AR为使用自回归方式生成语义token，之后基于语义token通过NAR模型以非自回归的方式生成声学特征的token，最后将两部分token结合起来得到最终的token。文章做了充足的实验证明方法的有效性。语音重建，zero-shot TTS，并且还分析了RVQ不同层的token所具备的特征以及对语音转化的影响。

FunASR

Paraformer