简要回答
定义:智能体每步将转移元组 (s_t, a_t, r_{t+1}, s_{t+1}) 写入回放缓冲区(Replay Buffer),容量常为 10⁵~10⁶;训练时从缓冲区均匀随机抽取 batch 更新 Q 网络,而非仅用最新一步数据
标准回答
定义:智能体每步将转移元组 (s_t, a_t, r_{t+1}, s_{t+1}) 写入回放缓冲区(Replay Buffer),容量常为 10⁵~10⁶。训练时从缓冲区均匀随机抽取 batch 更新 Q 网络,而非仅用最新一步数据。
为什么重要:
- 打破相关性:连续帧高度相关,直接在线学习等价于非 i.i.d. 样本,梯度估计有偏、训练震荡。随机采样近似独立同分布。
- 提高样本效率:同一转移可被多次学习,尤其仿真代价高或真实交互昂贵时至关重要。
- 稳定深度网络训练:配合目标网络,避免 Q 目标与当前策略剧烈耦合。
进阶:优先经验回放(PER) 按 TD 误差大小非均匀采样,并用重要性采样权重修正偏差。
注意:回放是 off-policy 技术;纯 on-policy 算法(如原始 PPO 在线版)通常不用大规模回放。
追问
追问 1:回放缓冲区满了怎么办?
常见 FIFO 覆盖最旧样本(环形缓冲区),保证数据分布随策略缓慢漂移。也可按时间衰减或只保留近期数据,但会损失长期经验。
追问 2:PER 的 TD 误差大就一定该多采样吗?
TD 误差大可能代表「难学」或「噪声大」两种情形。PER 假设前者为主,需 IS 权重防分布偏移;极端 outlier 可裁剪或设优先级上限。
追问 3:经验回放能用于策略梯度方法吗?
标准 PPO 等 on-policy 方法原则上应用当前策略采集的数据;用旧策略数据需重要性采样校正,工程复杂。TRPO/PPO 的 clip 机制部分缓解,但大规模离线回放更常见于 off-policy Q 方法。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究