FunASR | lc's space

文章标题：FunASR: A Fundamental End-to-End Speech Recognition Toolkit
文章地址：https://arxiv.org/abs/2305.11013
accepted by INTERSPEECH 2023

文章提出了一个用于跨越学术研究和工业应用的开源的语音识别工具包：FunASR。来自阿里的通义实验室。该工具包提供了工业级训练数据的模型以及应用。FunASR的主要模型为Paraformer，以前读过该文章，文章使用了6w小时的数据训练模型，此外，为了更进一步提高Paraformer的表现，作者还在标准模型上额外增加了时间戳预测和热词定制的功能。另外，FunASR还开源了声音活动检测模型和文本后处理标点模型。FunASR主要组成如主图。 FunASR主要特点为：

模型：工具包提供了大量工业级数据训练的模型
训练和微调方法：可以快速简便地对模型进行调整或训练
语音识别服务：FunASR允许用户可以简单的建立起语音识别服务

接下来介绍FunASR的主要模型。首先介绍核心模型Paraformer，其基本结构以及功能在前面已经介绍过，在这里不再过多赘述，现在主要介绍其作出的功能拓展：时间戳预测和热词定制，如下图。

首先对于时间戳预测，作者在Paraformer的Predictor中增加了一个模块用于时间戳预测，并用大量数据对其进行训练，实验结果如下。

其次对于热词定制，作者增加了两个模块，第一个是热词嵌入模块，将热词转换为embedding，第二个是多头自注意力模块，其将内部隐变量与热词embedding做交叉注意力计算，随后与原来模块得到的结果拼接在一起得到最终结果传入下一个decoder，以此实现了热词的定制功能，实验结果如下。

然后介绍声音活动检测模型，该模型功能为识别出语音的开始和结尾，这对于语音识别任务来说十分重要，该模型基于FSMN结构（Feedforward Sequential Memory Network），实验结果如下。

最后介绍文本后处理模型，该模型功能为添加一些标点符号和使语音更流畅，模型基于CT-Transformer结构（controllable time-delay），其结构如下图。

为了满足实时限制，模型允许以可控时间延迟冻结部分输出，实验结果如下。

文章做了一些实验，实验结果如下：

AnyGPT

SpeechTokenizer