<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2106.07447">https://arxiv.org/abs/2106.07447</a> </li><li>TASLP 2021(期刊)</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1723427886/CCE87CB8-D6B5-4A99-98AD-E2D05EF20BF1.png" style="background-color:initial;max-width:min(100%,1272px);max-height:min(1198px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1723427886/CCE87CB8-D6B5-4A99-98AD-E2D05EF20BF1.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1272" height="1198"> 作者提到,基于自监督方法的语音表示学习主要面临三个问题:1)每条语音中有多个声音单元,2)在预训练阶段,对于输入的语音单元没有词表,3)声音单元具有可变长度,没有固定的长度。为了解决上述问题,作者提出了HuBERT,用于语音的自监督表示学习,其使用离线的聚类步骤得到了类BETR预测的对齐的标签计算loss。 总之,该模型就是利用自监督的方法得到了语音的离散表示。