Prioritized Experience Replay（优先经验回放）

就是让 AI 多练那些做错过的题，少练已经会的题

亦作、亦称：优先经验回放 · PER · 优先级经验回放 · 优先经验重放

优先经验回放（PER）让强化学习智能体优先从「犯过错」或「收获大」的经验中反复学习，而非均匀随机回顾所有历史数据。这一机制显著提升了样本效率，是现代深度强化学习的核心组件之一。

概述

优先经验回放是对传统经验回放（Experience Replay） 机制的改进，核心思想是「重要的经验多学，不重要的经验少学」。

-背景：传统经验回放从回放缓冲区均匀随机采样，忽略了不同样本之间信息量的差异
- 核心改进：为每条转移样本（transition）分配优先级，优先级越高的样本被选中概率越大
-优先级依据：通常使用TD 误差（Temporal Difference error）的绝对值作为优先级的度量
- 实际效果：在 Atari 游戏基准上，PER 版 DQN 在 49 个游戏中的 41 个上超越均匀采样版本
-发表：DeepMind 团队 Tom Schaul 等人于 2015 年提出，2016 年在 ICLR 发表

工作原理

PER 的核心机制分为优先级计算、随机采样和偏差修正三个步骤。

TD 误差计算：每次从缓冲区采样并更新网络后，记录该样本的 TD 误差 δ（预测 Q 值与目标 Q 值之差的绝对值）
优先级赋值：样本 i 的优先级 p_i = |δ_i| + ε（ε 为小常数，确保每条样本都有非零概率被采样）
随机采样概率：P(i) = p_i^α / Σ p_k^α，α 控制优先化程度（α=0 退化为均匀采样）
重要性采样权重（IS weights）：w_i = (1/N · 1/P(i))^β，用于修正非均匀采样引入的分布偏差
β 退火：训练初期 β 较小（允许较大偏差加快学习），随训练进行逐步增大至 1（完全修正偏差）

两种优先级策略

PER 论文提出了两种具体的优先级计算方式，各有特点。

比例优先（Proportional Prioritization）：直接用 TD 误差绝对值作为优先级，直观高效，工程中最常用；缺点是对 TD 误差异常值（outlier）敏感
- 排名优先（Rank-based Prioritization）：对缓冲区所有样本按 TD 误差排序，优先级 p_i = 1/rank(i)；对异常值更鲁棒，分布更稳定，但计算开销略高
-SumTree 数据结构：工程实现中通常用线段树（SumTree）维护优先级，支持 O(log n) 时间的采样与优先级更新
- 新样本初始化：新加入缓冲区的样本通常赋予当前最大优先级，确保每条新经验至少被学习一次

应用场景

PER 已成为深度强化学习中的通用技术，广泛应用于多种场景。

Atari 游戏：与 DQN 结合，显著提升 Atari 基准性能，是最早验证 PER 价值的场景
Rainbow DQN：PER 是 Rainbow DQN 六大组件之一，与 Double Q-learning、Dueling Network 等协同发挥作用
机器人控制：稀疏奖励环境中，成功经验极少，PER 有助于智能体优先回顾这些宝贵样本
无人驾驶与路径规划：PER-DDQN 用于无人车路径规划，提升对关键决策点的学习效率
多智能体强化学习：部分 MARL 框架引入 PER 加速协作策略的学习收敛

与相邻概念的区别

PER 容易与经验回放、HER 等相关概念混淆，以下是关键区别。

vs 均匀经验回放：均匀回放等概率采样所有历史样本；PER 按 TD 误差赋予差异化概率，学习效率更高
vs 后见经验回放（HER）：HER 通过重新标注目标来解决稀疏奖励问题，属于数据增强；PER 解决的是「哪些经验更值得学」的采样问题，两者可结合使用
vs 课程学习（Curriculum Learning）：课程学习在监督学习中由易到难安排样本；PER 基于 TD 误差动态调整采样，属于在线自适应机制
vs 优先级回放缓冲区（Priority Replay Buffer）：PER 特指 Schaul 2016 提出的具体方法；优先级回放缓冲区是更广泛的概念，PER 是其一种实现

局限与误区

PER 并非万能，使用时需注意以下常见问题。

对 TD 误差异常值敏感：初期网络不稳定时 TD 误差可能极大，导致部分样本被过度采样，训练不稳定
优先级过时问题（Stale Priorities）：样本的 TD 误差随网络更新而变化，但缓冲区中存储的优先级不会实时更新，导致采样决策基于过时信息
超参数敏感：α、β、ε 等超参数对性能影响显著，需要仔细调参
计算开销增加：相比均匀采样，维护 SumTree 和更新优先级带来额外计算成本
常见误区：误以为 PER 能解决稀疏奖励问题——PER 只是改变采样频率，不增加奖励信号，稀疏奖励仍需 HER 等专门方法

发展脉络

PER 的提出植根于经验回放技术的长期演进，并持续影响后续研究。

1992 年：Lin 提出经验回放（Experience Replay），首次将历史转移样本存入缓冲区用于离线学习
2013-2015 年：DeepMind DQN 系列使用均匀经验回放取得 Atari 人类水平，但均匀采样效率不足
2015 年：Tom Schaul 等提出 PER（arXiv 1511.05952），首次系统提出基于 TD 误差的优先级采样框架
2016 年：PER 在 ICLR 2016 正式发表，成为深度强化学习标准工具箱的一部分
2017 年：Rainbow DQN 将 PER 整合为六大核心组件之一，验证其与其他改进的协同效果
2018 年至今：PER 被广泛应用于机器人、自动驾驶、游戏 AI 等领域，并催生了 HER+PER、动态优先级等变体研究

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是让 AI 多练那些做错过的题，少练已经会的题」
「用 TD 误差当优先级，误差大的样本多抽几次」
「经验回放的「刷题模式」——难题多练，简单题少练」

Prioritized Experience Replay（优先经验回放）

概述

工作原理

两种优先级策略

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

AI Agent 权限管理与访问控制最佳实践