LSTM（长短期记忆网络）

能记更久的 RNN

亦作、亦称：长短期记忆网络 · Long Short-Term Memory

LSTM（长短期记忆网络）是一种引入门控机制的循环神经网络变体，由 Hochreiter 与 Schmidhuber 于 1997 年发表于 Neural Computation，专门用于解决标准 RNN 在处理长序列时普遍存在的梯度消失问题。凭借对信息的选择性保留与遗忘，LSTM 在语音识别、机器翻译、时间序列预测等任务中长期占据主流地位，也是理解序列模型演进脉络的关键节点。

概述

背景与动机

标准 RNN 在反向传播时面临严重的梯度消失或梯度爆炸问题，导致模型难以捕获序列中相隔较远的依赖关系。

梯度消失根源：误差信号在多步时间展开后经反复矩阵乘法而指数级衰减，早期时间步几乎无法被有效更新
长程依赖需求：语言、语音等任务需要关联相距数十乃至数百步的上下文
常数误差流（CEC）：LSTM 的核心思路是在细胞状态上维持「常数误差轮播」，让梯度以接近加法的方式无衰减地跨越多个时间步
论文验证：原始论文实验表明 LSTM 可跨越超过 1000 个离散时间步的最小时间间隔，引用量超过 8 万次

核心机制：三门架构

每个时间步 LSTM 同时维护隐状态（h）和细胞状态（c）两条信息通道，通过三个门精确控制信息的增删与输出。

遗忘门（forget gate）：读取前一隐状态与当前输入，经 sigmoid 激活后输出 0–1 权重，决定细胞状态中哪些信息应被丢弃；该门由 Gers 等人在 2000 年引入，并非原始 1997 年论文的一部分
输入门（input gate）：同样经 sigmoid 激活，决定将哪些新信息写入细胞状态；候选值由 tanh 层生成
细胞状态更新：新 c = 遗忘门权重 × 旧 c + 输入门权重 × 候选值，核心是加法运算，保证梯度稳定流动
输出门（output gate）：决定最终向下一步输出多少细胞状态内容，经 tanh 压缩后与输出门权重相乘得到隐状态 h
窥视孔连接（peephole）：Gers & Schmidhuber 2000 年提出的扩展，允许门控层直接读取细胞状态数值，提升精确时序学习能力

发展脉络

LSTM 在近三十年间持续演化，深刻影响了后续序列模型的设计哲学。

1991：Hochreiter 在硕士论文中系统分析梯度消失与爆炸问题，奠定理论基础
1997：Hochreiter & Schmidhuber 发表原始 LSTM 论文，引入细胞状态与输入门、输出门（尚无遗忘门）
2000：Gers、Schmidhuber 等人提出遗忘门与窥视孔连接，形成现代 LSTM 标准形态
2014：Cho 等人在 LSTM 基础上提出 GRU，将遗忘门与输入门合并为更新门，参数量更少；同年 Sutskever 等人用堆叠 LSTM 实现 seq2seq 翻译突破
2016：Google 发布 GNMT，8 层堆叠 LSTM 的产品级翻译系统，是 LSTM 工程实践的顶峰
2017：《Attention Is All You Need》提出 Transformer，凭借全序列并行计算迅速取代 LSTM 成为 NLP 主流
2023 至今：Mamba 等状态空间模型以线性时间推理挑战 Transformer，LSTM 的门控思想在新架构中得到延续

主要变体

LSTM 衍生出多种变体，以适应不同场景的效率与精度需求。

GRU（Gated Recurrent Unit）：2014 年由 Cho 等人提出，合并遗忘门与输入门为更新门，去掉独立细胞状态，参数减少约 25%，速度更快，大多数任务性能与 LSTM 接近
双向 LSTM（Bi-LSTM）：在正向和反向各运行一个 LSTM 并拼接隐状态，能捕获双向上下文，曾是命名实体识别（NER）的标准基线
堆叠 LSTM（Stacked LSTM）：多层 LSTM 串联增加深度，早期 seq2seq 机器翻译的常用架构
Peephole LSTM：允许门控直接读取细胞状态，对精确时序任务（如音频节拍检测）有小幅提升

典型应用场景

LSTM 凭借其对序列依赖的建模能力，在多个领域留下深远影响。

语音识别：与 CTC 损失函数结合，构建端到端声学模型，Google、百度等公司早期语音系统大量采用
机器翻译：编码器-解码器（seq2seq）架构的核心组件，是注意力机制出现之前翻译系统的事实标准
时间序列预测：金融、气象、工业传感器等场景下的预测模型骨干，至今仍具竞争力
OCR 与手写识别：Bi-LSTM + CTC 组合（CRNN 架构）曾是手写体文字识别的主流方案
嵌入式与边缘部署：推理结构简单、内存占用稳定，在资源受限设备（MCU、DSP）上比 Transformer 更易落地

与 Transformer 的比较

Transformer 兴起后，LSTM 与其形成清晰的能力互补格局。

并行训练：Transformer 可对全序列并行计算注意力，训练效率远高于 LSTM 的逐步时间展开
长程依赖：自注意力机制在理论上可直接关联任意距离的位置，而 LSTM 仍受制于隐状态的信息瓶颈
推理效率：LSTM 为逐步自回归结构，推理时内存占用稳定，适合低延迟流式场景
数据效率：在小数据集上，LSTM 的归纳偏置（局部序列依赖）有时优于 Transformer
生产现状：2017 年后主流大模型几乎全面采用 Transformer，但工业 IoT、嵌入式设备等场景中 LSTM 仍活跃

常见误区与局限

LSTM 被广泛使用，但也存在若干常见误解与固有约束。

并未完全消除梯度消失：对极长序列（数千步以上）性能仍会明显下降，只是比普通 RNN 好得多
训练并行度低：时间步之间存在数据依赖，无法像 Transformer 那样在序列维度全并行，现代 GPU 利用率偏低
误区「能无限记住过去」：遗忘门在训练中往往学会积极丢弃信息，实际有效记忆窗口受网络容量和训练信号双重限制
误区「已经过时无需学」：在小数据集、低资源推理和特定时序任务中 LSTM 依然有竞争力，且理解 LSTM 是学习 Transformer 和状态空间模型的重要铺垫
遗忘门时序说明：常见资料将遗忘门归入 1997 年原始论文，实际上遗忘门由 Gers 等人在 2000 年正式引入

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「能记更久的 RNN」
「带门控的循环网络」
「语音识别老主力」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「LSTM」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。