SoundStorm

文章提出了SoundStorm,一个高效的非自回归生成音频的模型。其将语义token作为输入,以非自回归的方式补全acoustic token,从而实现高效的音频生成。 SoundStorm模型结构如主图,训练时其掩码的计算如下: 最后模型多次前向计算,逐层得到acoustic token,从而得到了完整的音频token表示。 文章通过实验证明了模型的表现: