CTC（连接时序分类）

不对齐也能识别序列

亦作、亦称：连接时序分类 · Connectionist Temporal Classification

连接时序分类（Connectionist Temporal Classification，CTC）是一种无需逐帧对齐标注即可端到端训练序列模型的损失函数与解码机制。它通过引入「空白」符号并对所有合法对齐路径求边缘概率，极大降低了语音识别、OCR 等任务的标注门槛，是深度学习取代传统 HMM 流水线的关键技术之一。

概述

CTC 解决的核心问题是：输入帧序列与目标标签序列长度不匹配，且对应关系（对齐）在训练前未知。

核心动机：传统方法依赖 HMM 或人工强制对齐工具（如 Kaldi），成本高且易引入误差；CTC 让「对齐」成为被积分掉的隐变量。
blank 符号：词表中增加一个特殊符号，用来填充输出序列中未对应任何标签的时间步。
训练目标：最大化目标文本所有合法对齐路径的总概率之和，仅需（输入序列, 目标文本）对即可训练。
适用前提：输入与输出之间须为单调对齐，输入帧数 T 须严格大于输出标签数 L。
应用范围：语音识别（ASR）、光学字符识别（OCR）、手写识别、基因组碱基识别等单调序列任务。

工作原理

模型在每个时间步输出包含 blank 的概率分布，路径经「折叠相邻重复 + 去 blank」还原为目标文本。

路径与等价类：T 步输出构成一条路径；映射到同一目标文本的所有路径构成等价类，其总概率即为该文本的 CTC 概率。
- 前向-后向动态规划： CTC 损失通过前向-后向算法（Forward-Backward）在 O(T × L) 时间内高效计算，无需枚举所有路径。
-条件独立假设：每个时间步的输出仅依赖编码器特征，不依赖前一输出标签——这既是效率优势，也是建模上限。
- 贪心解码：推理时逐步取最大概率符号后折叠，速度快但不保证最优；束搜索（beam search） 可融合外部语言模型以提升准确率。
-下采样技巧：实际部署中常在编码器前加卷积步幅或时间池化，将帧率从 10 ms 压缩到 40-80 ms，保证 T > L 的同时降低计算量。

发展脉络

2006：Alex Graves、Santiago Fernández、Faustino Gomez、Jürgen Schmidhuber 在 ICML 提出 CTC，初始场景为 RNN + 手写识别。
- 2013-2014： Graves 与 Jaitly 等将 CTC 与深层双向 LSTM 结合用于语音识别，在 TIMIT 基准上超越当时的 HMM 系统。
-2014-2015：百度研究院Deep Speech224系列验证了 CTC+RNN 路线在大规模英语和普通话语音数据上的可扩展性。
-2018： RNN-T（Transducer）逐渐被工业界采用，作为 CTC 的有状态升级版，消除了条件独立假设。
- 2020 年至今： wav2vec 2.0（Facebook AI）采用 CTC 微调头；ESPnet、WeNet 等框架将 CTC/Attention 联合训练确立为工业主流配置。

应用场景

CTC 适合所有「输入序列比标签长、且对齐单调」的识别任务。

语音识别（ASR）：输入梅尔频谱图帧，输出音素或字符；Whisper、wav2vec 2.0 微调阶段均可使用 CTC 头。
光学字符识别（OCR）：行级文字图像的宽度方向充当时间轴，直接输出字符串，无需预先切分单字，广泛用于场景文字识别（Scene Text Recognition）。
联机手写识别：笔画点序列作为时间序列输入，CTC 直接解码为文字。
基因组碱基识别（basecalling）：Oxford Nanopore 测序仪的软件（如 Guppy / Dorado）将电流信号序列解码为碱基序列，采用 CTC 或其变体。
关键词检测（KWS）：轻量级端侧唤醒词检测也常采用 CTC 框架，配合流式编码器实现低延迟推理。

类型与变体

标准 CTC 因条件独立假设语言建模能力有限，工程实践中多有扩展。

CTC + 外部语言模型（Shallow Fusion）：beam search 解码时叠加 n-gram 或神经语言模型得分，是最简单的增强方式。
CTC/Attention 联合训练：将 CTC 作为辅助损失（权重通常 0.1-0.3），帮助编码器快速学习对齐，注意力解码器负责语言建模；ESPnet、WeNet 的默认配置。
RNN-T（Transducer）：增加预测网络（Prediction Network）消除条件独立假设，可流式解码，但推理复杂度更高；Google 在 Pixel 手机 ASR 中大量使用。
流式 CTC：限制编码器感受野（单向或 chunk-based），实现低延迟实时识别，代价是精度略有下降。

与相邻概念的区别

CTC vs 注意力编码-解码器：注意力允许非单调对齐（适合翻译），CTC 要求严格单调对齐；注意力语言建模能力更强，CTC 解码更快。
CTC vs RNN-T：RNN-T 可视为 CTC 的有状态超集，消除了条件独立假设，但实现复杂度和内存占用更高；CTC 调试和部署更简单。
CTC vs HMM：HMM 需手动设计拓扑结构和状态转移，CTC 完全数据驱动；CTC 与深度神经网络天然结合，工程依赖更少。
CTC vs seq2seq（无 blank）：普通 seq2seq 通常需要输入与输出等长或通过注意力对齐，CTC 专门处理「输入比输出长很多」的场景。

局限与误区

条件独立限制语言建模：无辅助语言模型时，CTC 对上下文的建模能力弱于自回归解码器，在强语言依赖场景（如长句中文 ASR）准确率有明显差距。
T > L 的硬约束：若下采样不足或目标序列过长，可能出现 T ≤ L 导致无合法路径、损失变 NaN 的训练崩溃问题。
blank 过多导致训练不稳定：编码器输出时间步远多于标签时，blank 比例极高，梯度信号稀疏；常见解法是增大下采样倍率或配合 CTC/Attention 联合训练。
不适合非单调对齐任务：常见误区是将 CTC 用于机器翻译或摘要生成，实际上这些任务输入输出存在词序变换，CTC 路径单调假设完全不成立。
流式解码的延迟权衡：标准 CTC 编码器常为双向，不支持真正的流式；改用单向/chunk 编码器会带来精度损失，需根据场景权衡。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「不对齐也能识别序列」
「语音/OCR 常用损失」
「让帧和文字自动对齐」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「CTC」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

CTC（连接时序分类）

概述

工作原理

发展脉络

应用场景

类型与变体

与相邻概念的区别

局限与误区

常见误解

相关术语

延伸阅读

图像分类：从 AlexNet 到 EfficientNet

语音 AI 全景指南：从语音识别到全双工实时对话

NLP 评估指标：BLEU, ROUGE, METEOR

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕