CTC loss

CTC Loss 是一种不需要数据对齐的,广泛用于图像文本识别和语音识别任务的损失函数。 标记未分割序列数据是现实世界序列学习中普遍存在的问题。这在感知任务中尤其常见,如图像文本识别(OCR)、姿势识别、语音识别(ASR)。在这些领域中,所面临的一个问题是神经网络的输出与ground truth的长度不一致,导致loss难以计算。CTC loss 由此而提出。 CTC最大的优点是不需要数据对齐。 CTC的缺点来源于三个假设或约束: (1)条件独立:假设每个时间片都是相互独立的,但在OCR或者语音识别中,相邻几个时间片中往往包含着高度相关的语义信息,它们并非相互独立的。 (2)单调对齐:CTC要求输入与输出之间的对齐是单向的,在OCR和语音识别中,这种约束是成立的。但是在一些场景中(如机器翻译),这个约束并不成立。 (3)CTC要求是输入序列的长度不小于标签数据的长度,反之便无法使用。
参考:https://blog.csdn.net/qq_43799400/article/details/129243851