什么是循环神经网络（RNN）？有哪些应用场景？

Question 1

Accepted Answer

RNN（循环神经网络） 专为序列数据设计：每步接收输入 x_t 与上一步隐藏状态 h_{t-1}，更新 h_t = f(Wx_t + Uh_{t-1} + b)，再输出 y_t。 核心思想：参数在时间步共享，用有限状态概括历史——适合语言建模、机器翻译（Seq2Seq）、语音识别、股价预测等顺序依赖任务。 变体： - LSTM：门控机制（遗忘/输入/输出门）缓解 梯度消失 - GRU：简化版 LSTM，参数更少 - 双向 RNN：同时看过去与未来上下文（标注任务） 局限：难以并行（逐步递归）；极长序列仍难捕获远程依赖；训练不稳定。2017 年后 Transformer 在 NLP 主流任务上全面超越 RNN，但 RNN 在边缘低算力、流式小模型、经典时序基线场景仍有价值。 工程上 PyTorch 提供 nn.RNN/nn.LSTM/nn.GRU；详见 序列模型。

Question 2

LSTM 如何解决梯度消失？

Accepted Answer

通过细胞状态 C_t 与门控线性传递路径，使梯度可较长时间稳定回传；遗忘门控制保留多少历史，输入门控制写入多少新信息，避免 vanilla RNN 中连乘导致的指数衰减。

Question 3

Seq2Seq + Attention 与纯 RNN 编码解码有何不同？

Accepted Answer

纯 Seq2Seq 将整个源句压缩为固定向量，长句信息瓶颈严重。Bahdanau Attention 让解码每步动态关注编码器各位置，是迈向 Transformer 的关键一步。

Question 4

RNN 和 1D CNN 处理序列如何选型？

Accepted Answer

RNN 擅长时间步依赖与变长序列；1D CNN+膨胀卷积用固定感受野、可高度并行。WaveNet 用膨胀 CNN 做语音；许多时序任务先试 TCN 或 Transformer。

什么是循环神经网络（RNN）？有哪些应用场景？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习