<img src="https://res.cloudinary.com/montaigne-io/image/upload/v1720977327/2E5A52DA-9641-44A4-96EB-75625A31A77B.png" style="background-color:initial;max-width:min(100%,1326px);max-height:min(872px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1720977327/2E5A52DA-9641-44A4-96EB-75625A31A77B.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1326" height="872"> CTC Loss 是一种<b>不需要数据对齐</b><span style="font-family: '.PingFangSC-Regular'">的,广泛用于图像文本识别和语音识别任务的损失函数。</span> 标记未分割序列数据是现实世界序列学习中普遍存在的问题。这在感知任务中尤其常见,如图像文本识别(OCR)、姿势识别、语音识别(ASR)。在这些领域中,所面临的一个问题是神经网络的输出与ground truth的长度不一致,导致loss难以计算。CTC loss 由此而提出。 CTC最大的优点是不需要数据对齐。 CTC的缺点来源于三个假设或约束: (1)条件独立:假设每个时间片都是相互独立的,但在OCR或者语音识别中,相邻几个时间片中往往包含着高度相关的语义信息,它们并非相互独立的。 (2)单调对齐:CTC要求输入与输出之间的对齐是单向的,在OCR和语音识别中,这种约束是成立的。但是在一些场景中(如机器翻译),这个约束并不成立。 (3)CTC要求是输入序列的长度不小于标签数据的长度,反之便无法使用。 <div></div>参考:https://blog.csdn.net/qq_43799400/article/details/129243851