<img src="https://res.cloudinary.com/montaigne-io/image/upload/v1721472071/38B572A2-0250-4EF2-BBFA-F8240BAC1E97.png" style="background-color:initial;max-width:min(100%,1670px);max-height:min(894px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1721472071/38B572A2-0250-4EF2-BBFA-F8240BAC1E97.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1670" height="894"> <ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2407.05407">https://arxiv.org/abs/2407.05407</a> </li><li>在投</li></ul> 文章提出了一个基于有监督学习的语音tokenizer,通过语音识别模型作为监督,提取语音的语义并进行离散化,便于大模型的处理,使用大模型对TTS任务token进行建模,得到输出语音的token,最后利用基于流的模型生成相应的音频。 文章主要的创新点在于将语音识别模型作为监督信息,提取音频的语义token。但我做了实验,提取某段音频的token,再将token使用流模型还原音频,结果发现将speaker换成其他的人,其生成的音频与原音频的音色等声学特征还是比较像,这说明token里包含了大量的声学特征的信息,并不完全是语义token。