什么是 DQN 中的经验回放？为什么重要？

Q: 什么是 DQN 中的经验回放？为什么重要？

定义：智能体每步将转移元组 (s_t, a_t, r_{t+1}, s_{t+1}) 写入回放缓冲区（Replay Buffer），容量常为 10⁵～10⁶。训练时从缓冲区均匀随机抽取 batch 更新 Q 网络，而非仅用最新一步数据。 为什么重要： 1. 打破相关性：连续帧高度相关，直接在线学习等价于非 i.i.d. 样本，梯度估计有偏、训练震荡。随机采样近似独立同分布。 2. 提高样本效率：同一转移可被多次学习，尤其仿真代价高或真实交互昂贵时至关重要。 3. 稳定深度网络训练：配合目标网络，避免 Q 目标与当前策略剧烈耦合。 进阶：优先经验回放（PER） 按 TD 误差大小非均匀采样，并用重要性采样权重修正偏差。 注意：回放是 off-policy 技术；纯 on-policy 算法（如原始 PPO 在线版）通常不用大规模回放。

Question 1

Accepted Answer

定义：智能体每步将转移元组 (s_t, a_t, r_{t+1}, s_{t+1}) 写入回放缓冲区（Replay Buffer），容量常为 10⁵～10⁶。训练时从缓冲区均匀随机抽取 batch 更新 Q 网络，而非仅用最新一步数据。

为什么重要：

打破相关性：连续帧高度相关，直接在线学习等价于非 i.i.d. 样本，梯度估计有偏、训练震荡。随机采样近似独立同分布。
提高样本效率：同一转移可被多次学习，尤其仿真代价高或真实交互昂贵时至关重要。
稳定深度网络训练：配合目标网络，避免 Q 目标与当前策略剧烈耦合。

进阶：优先经验回放（PER）按 TD 误差大小非均匀采样，并用重要性采样权重修正偏差。

注意：回放是 off-policy 技术；纯 on-policy 算法（如原始 PPO 在线版）通常不用大规模回放。

Question 2

回放缓冲区满了怎么办？

Accepted Answer

常见 FIFO 覆盖最旧样本（环形缓冲区），保证数据分布随策略缓慢漂移。也可按时间衰减或只保留近期数据，但会损失长期经验。

Question 3

PER 的 TD 误差大就一定该多采样吗？

Accepted Answer

TD 误差大可能代表「难学」或「噪声大」两种情形。PER 假设前者为主，需 IS 权重防分布偏移；极端 outlier 可裁剪或设优先级上限。

Question 4

经验回放能用于策略梯度方法吗？

Accepted Answer

标准 PPO 等 on-policy 方法原则上应用当前策略采集的数据；用旧策略数据需重要性采样校正，工程复杂。TRPO/PPO 的 clip 机制部分缓解，但大规模离线回放更常见于 off-policy Q 方法。

什么是 DQN 中的经验回放？为什么重要？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习