标准回答
RNN 及其问题
RNN 在每个时间步用同一组权重,把上一步隐藏状态与当前输入结合,递归处理序列。但反向传播跨很多时间步连乘梯度,容易梯度消失(学不到远距离依赖)或梯度爆炸,长序列建模能力差。
LSTM 如何改进
LSTM 增加一条贯穿时间的细胞状态(cell state),并用三个门控制信息:
- 遗忘门:决定丢弃多少旧记忆。
- 输入门:决定写入多少新信息。
- 输出门:决定输出多少细胞状态。
细胞状态以近似加法方式更新,使梯度能较稳定地长距离传播,从而缓解梯度消失、记住长依赖。
GRU 的简化
GRU 只有两个门:更新门(兼顾遗忘与写入)和重置门(控制对历史的依赖),并合并隐藏状态与细胞状态。参数更少、计算更快,在中小数据上常与 LSTM 表现相当。
常见误区
⚠️ 常见踩坑
说 LSTM「彻底解决」了梯度消失——它只是显著缓解,超长序列仍会衰减;门控也无法消除梯度爆炸,仍需梯度裁剪。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。