<img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720977101/515D73A9-74B6-48A4-AC08-394E0A51A2BB.png" style="background-color:initial;max-width:min(100%,1592px);max-height:min(974px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720977101/515D73A9-74B6-48A4-AC08-394E0A51A2BB.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1592" height="974"> <ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2308.16692">https://arxiv.org/abs/2308.16692</a> </li><li>accepted by ICLR 2024</li></ul> 文章提到了现有的语音tokenizer要么只提取语义特征(与文本对齐),要么只提取声学特征(音色等),要么将两者同时利用起来(有较大的信息冗余)。为了解决该问题,文章有三方面贡献: - 首个评估语音token质量的benchmark:SLMTokBench - 同时包含语义和声学特征的语音tokenizer:SpeechTokenizer - 用SpeechTokenizer的统一模型USLM 首先介绍SLMTokBench,它主要从两方面考察语音token的质量:1.文本的对齐度;2.语音信息的有效保留度。对于文本对齐度,文章通过计算语音token与文本的 互信息来考察: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/520E7E64-1C23-4D50-B6E8-56833C6564DE.png" style="background-color:initial;max-width:min(100%,1034px);max-height:min(148px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/520E7E64-1C23-4D50-B6E8-56833C6564DE.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1034" height="148"> 其中q()为参数为θ的下游模型,用于拟合式中的条件分布。对于语音信息的保留度,作者将token重新生成语音,再利用统一的模型计算文本保留度和说话人特征相似度。可以看到基于该benchmark,不同的token具有不同的特点,SpeechTokenizer则在两方面都表现的很好: <img src="" style="background-color:initial;;background-image:url();height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="null" height="null"> 下面介绍一下SpeechTokenizer,主图即其结构。其实他的思想很简单,就是在Encodec的基础上使用了HuBERT提取的特征对RVQ第一层的向量进行了指导(师生模型),从而增强了RVQ-1的语义信息,残差结构将语义信息与声学特征解耦,使得RVQ2:8提取辅助的声学特征。 <img src="" style="background-color:initial;;background-image:url();height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="null" height="null"> 最后介绍文章使用到的模型,其结构为上图后半部分。由AR与NAR两部分模型组成,其中AR为使用自回归方式生成语义token,之后基于语义token通过NAR模型以非自回归的方式生成声学特征的token,最后将两部分token结合起来得到最终的token。 文章做了充足的实验证明方法的有效性。语音重建,zero-shot TTS,并且还分析了RVQ不同层的token所具备的特征以及对语音转化的影响。 <img src="" style="background-color:initial;;background-image:url();height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="null" height="null"> <img src="" style="background-color:initial;;background-image:url();height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="null" height="null"> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/119E25A8-2548-4662-B995-F0017A81B311.png" style="background-color:initial;max-width:min(100%,1922px);max-height:min(446px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976899/119E25A8-2548-4662-B995-F0017A81B311.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1922" height="446"> <img src="" style="background-color:initial;;background-image:url();height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="null" height="null">