SpeechTokenizer

文章提到了现有的语音tokenizer要么只提取语义特征(与文本对齐),要么只提取声学特征(音色等),要么将两者同时利用起来(有较大的信息冗余)。为了解决该问题,文章有三方面贡献: - 首个评估语音token质量的benchmark:SLMTokBench - 同时包含语义和声学特征的语音tokenizer:SpeechTokenizer - 用SpeechTokenizer的统一模型USLM 首先介绍SLMTokBench,它主要从两方面考察语音token的质量:1.文本的对齐度;2.语音信息的有效保留度。对于文本对齐度,文章通过计算语音token与文本的 互信息来考察: 其中q()为参数为θ的下游模型,用于拟合式中的条件分布。对于语音信息的保留度,作者将token重新生成语音,再利用统一的模型计算文本保留度和说话人特征相似度。可以看到基于该benchmark,不同的token具有不同的特点,SpeechTokenizer则在两方面都表现的很好: 下面介绍一下SpeechTokenizer,主图即其结构。其实他的思想很简单,就是在Encodec的基础上使用了HuBERT提取的特征对RVQ第一层的向量进行了指导(师生模型),从而增强了RVQ-1的语义信息,残差结构将语义信息与声学特征解耦,使得RVQ2:8提取辅助的声学特征。 最后介绍文章使用到的模型,其结构为上图后半部分。由AR与NAR两部分模型组成,其中AR为使用自回归方式生成语义token,之后基于语义token通过NAR模型以非自回归的方式生成声学特征的token,最后将两部分token结合起来得到最终的token。 文章做了充足的实验证明方法的有效性。语音重建,zero-shot TTS,并且还分析了RVQ不同层的token所具备的特征以及对语音转化的影响。