CAM++

TDNN(Time delay neural network)是说话人识别任务中十分有效的模型(我的理解其实就是一维的卷积网络),基于该结构的ECAPA-TDNN在说话人识别是SOTA模型,但其需要较高的计算资源和较慢的推理速度,因此,作者提出了一个基于上下文感知掩码的高效的网络:CAM++,使用了D-TDNN(densely connected time delay neural network)作为骨干网络和全新的多尺度池化去捕捉不同尺度下的上下文信息。 CAM++的结构如主图,主要由两部分组成:the front-end convolution module (FCM) and the D-TDNN backbone。FCM主要由几个残差连接的二维卷积块构成,提取特征,随后输入到D-TDNN中。D-TDNN由三个Dense Block组成,每个block由多个layer稠密连接构成,而对每个layer,文中使用了改进的CAM模块对TDNN的输出进行权重分配,多尺度的池化可以使其具有全局和局部的上下文信息。其中得到的mask公式如下: eg和es分别为全局特征和局部特征,k为局部切片数,sk为第k个切片的开始帧。 最后得到layer输出为: 其中F(X)为TDNN的输出。 实验部分结果如下,可以看到CAM++在增加少量的参数下实现了最好的的表现性能和推理速度: