CosyVoice

  • 文章标题:CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
  • 文章地址:https://arxiv.org/abs/2407.05407
  • 在投
文章提出了一个基于有监督学习的语音tokenizer,通过语音识别模型作为监督,提取语音的语义并进行离散化,便于大模型的处理,使用大模型对TTS任务token进行建模,得到输出语音的token,最后利用基于流的模型生成相应的音频。 文章主要的创新点在于将语音识别模型作为监督信息,提取音频的语义token。但我做了实验,提取某段音频的token,再将token使用流模型还原音频,结果发现将speaker换成其他的人,其生成的音频与原音频的音色等声学特征还是比较像,这说明token里包含了大量的声学特征的信息,并不完全是语义token。