CosyVoice | lc's space

文章标题：CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
文章地址：https://arxiv.org/abs/2407.05407
在投

文章提出了一个基于有监督学习的语音tokenizer，通过语音识别模型作为监督，提取语音的语义并进行离散化，便于大模型的处理，使用大模型对TTS任务token进行建模，得到输出语音的token，最后利用基于流的模型生成相应的音频。文章主要的创新点在于将语音识别模型作为监督信息，提取音频的语义token。但我做了实验，提取某段音频的token，再将token使用流模型还原音频，结果发现将speaker换成其他的人，其生成的音频与原音频的音色等声学特征还是比较像，这说明token里包含了大量的声学特征的信息，并不完全是语义token。

OpenVoice

MaskGIT