<img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/AD6A4929-E60F-4288-84AC-B9CEBF971BAA.png" style="background-color:initial;max-width:min(100%,850px);max-height:min(1056px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/AD6A4929-E60F-4288-84AC-B9CEBF971BAA.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="850" height="1056"> <ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2303.00332">https://arxiv.org/abs/2303.00332</a> </li><li>未投</li></ul> TDNN(Time delay neural network)是说话人识别任务中十分有效的模型(我的理解其实就是一维的卷积网络),基于该结构的ECAPA-TDNN在说话人识别是SOTA模型,但其需要较高的计算资源和较慢的推理速度,因此,作者提出了一个基于上下文感知掩码的高效的网络:CAM++,使用了D-TDNN(densely connected time delay neural network)作为骨干网络和全新的多尺度池化去捕捉不同尺度下的上下文信息。 CAM++的结构如主图,主要由两部分组成:the front-end convolution module (FCM) and the D-TDNN backbone。FCM主要由几个残差连接的二维卷积块构成,提取特征,随后输入到D-TDNN中。D-TDNN由三个Dense Block组成,每个block由多个layer稠密连接构成,而对每个layer,文中使用了改进的CAM模块对TDNN的输出进行权重分配,多尺度的池化可以使其具有全局和局部的上下文信息。其中得到的mask公式如下: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/1D6D8727-7139-4CA1-8043-FB80EDE37D79.png" style="background-color:initial;max-width:min(100%,806px);max-height:min(150px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/1D6D8727-7139-4CA1-8043-FB80EDE37D79.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="806" height="150"> eg和es分别为全局特征和局部特征,k为局部切片数,sk为第k个切片的开始帧。 最后得到layer输出为: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/4281E7BB-BBE1-496C-B58B-3D710C1C962C.png" style="background-color:initial;max-width:min(100%,350px);max-height:min(64px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/4281E7BB-BBE1-496C-B58B-3D710C1C962C.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="350" height="64"> 其中F(X)为TDNN的输出。 实验部分结果如下,可以看到CAM++在增加少量的参数下实现了最好的的表现性能和推理速度: <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/453625B3-C1A9-4146-AA6F-3228146B4CE4.png" style="background-color:initial;max-width:min(100%,2406px);max-height:min(1382px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720976476/453625B3-C1A9-4146-AA6F-3228146B4CE4.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2406" height="1382">