Paraformer | lc's space

文章标题：Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition
文章地址：https://arxiv.org/abs/2206.08317
accepted by INTERSPEECH 2022

由于最近在商汤实习，在做语音模态相关的工作，因此最近这段时间看的大部分文章都是语音模态的。这篇文章来自阿里的语音实验室，提出了Paraformer模型，该模型为端到端的非自回归语音识别模型。文章提到Transformer在当前语音识别具有统治地位，而Transformer的Decoder部分为AR（自回归）生成的，这大大增加了推理时间。为了解决该问题，很多NAR（非自回归）方法被提出，目的是并行生成，例如：单步NAR。然而由于单步NAR大多都假设输出的token之间是独立的，因此效果大都不如AR。作者认为要提高单步NAR的效果，主要包含两个困难：首先是，准确地预测token数和提取隐变量；其次，提高对输出token间相互依赖关系的建模。因此作者提出了Paraformer。实验证明，在效果相当的情况下，Paraformer生成速度为AR方式的10倍。 Paraformer主要结构如主图，在训练中首先音频转化为fbanks（音频的声学特征），输入encoder得到隐变量H，H经过predictor预测token数N‘，并得到声学embedding Ea，decoder将Ea和H作为输入并输出Y‘（初步预测）输入sampler，将Y‘与真实标签Y做对比，将Ea中随机替换n个Ec（真实token的embedding）计算语义embedding Es，其中n为Y‘与Y的海明距离（即不同标签的个数）。得到Es后，将其和H作为decoder的输入预测标签Y‘’（最终预测）。在推理阶段，sampler不起作用，将得到的Ea与H作为decoder的输入进行文本标签的预测。 Predictor由两层卷积层组成，其输出为一系列范围为0-1的α，作者用α的和来预测N，使用MAE损失：

同时，predictor使用α与H的加权和来预测声学特征，加权时累计α，若α大于阈值β，则将加权和作为一个声学特征Ea（在训练时，α会因目标长度而缩放以此确保Ea的与Ec的长度相当，在推理时不会缩放），作者称该算法为CIF（Continuous Integrate-and-Fire），文章使用了动态阈值的方式：

下图为一个例子：

Sampler主要采用了GLM的思想，对输出的token相互依赖进行建模，GLM的损失为：

其中GLM集合为sampler在Ea与Ec采样的结果，他能对token间的相互依赖进行建模。具体采样方式为：

其中d为海明距离。Sampler模块随机将Ea中λd个token替换成Ec的embedding，然后使用GLM集合的上下文去预测不存在于GLM但存在于标签当中的token，从而实现了对输出token相互依赖的建模。模型的损失函数如下：

最后文章展示了paraformer与其他模型的对比（准确率和生成速率）：传统的数据集：

工业级数据集：

SpeechTokenizer