CAM++ | lc's space

文章标题：CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking
文章地址：https://arxiv.org/abs/2303.00332
未投

TDNN（Time delay neural network）是说话人识别任务中十分有效的模型（我的理解其实就是一维的卷积网络），基于该结构的ECAPA-TDNN在说话人识别是SOTA模型，但其需要较高的计算资源和较慢的推理速度，因此，作者提出了一个基于上下文感知掩码的高效的网络：CAM++，使用了D-TDNN（densely connected time delay neural network）作为骨干网络和全新的多尺度池化去捕捉不同尺度下的上下文信息。 CAM++的结构如主图，主要由两部分组成：the front-end convolution module (FCM) and the D-TDNN backbone。FCM主要由几个残差连接的二维卷积块构成，提取特征，随后输入到D-TDNN中。D-TDNN由三个Dense Block组成，每个block由多个layer稠密连接构成，而对每个layer，文中使用了改进的CAM模块对TDNN的输出进行权重分配，多尺度的池化可以使其具有全局和局部的上下文信息。其中得到的mask公式如下：

eg和es分别为全局特征和局部特征，k为局部切片数，sk为第k个切片的开始帧。最后得到layer输出为：

其中F(X)为TDNN的输出。实验部分结果如下，可以看到CAM++在增加少量的参数下实现了最好的的表现性能和推理速度：

Spectron

SpeechGPT