核心要点
能定义行为策略 vs 目标策略
举例 SARSA(on) vs Q-Learning(off)
理解 off-policy 的数据复用与稳定性挑战
知道重要性采样在 off-policy 中的作用
简要回答
On-policy(同策略):用于更新的数据必须由当前正在优化的策略产生;学的是 π 自身的 Q^π 或 V^π
标准回答
On-policy(同策略):用于更新的数据必须由当前正在优化的策略产生。学的是 π 自身的 Q^π 或 V^π。
- 例:SARSA、蒙特卡洛 on-policy、PPO(通常用当前策略 rollout)
Off-policy(异策略):行为策略 μ 可与目标策略 π 不同,用 μ 采集的数据学 π(常为最优策略)。
- 例:Q-Learning(ε-greedy 探索,学 greedy Q*)、DQN(经验回放含旧策略数据)
| 维度 | On-policy | Off-policy |
|---|---|---|
| 数据效率 | 样本即用即弃 | 可复用历史(回放) |
| 探索 | 与学习目标耦合 | 可激进探索、学保守最优 |
| 稳定性 | 较稳 | deadly triad 风险 |
| 代表 | PPO, SARSA | DQN, Q-Learning |
Off-policy 校正:重要性采样比率 ρ = π(a|s)/μ(a|s) 加权修正分布偏移。详见 RL 算法概览。
常见误区
⚠️ 常见踩坑
把「off-policy = 离线」混淆(off-policy 仍可在线交互);说不清行为策略与目标策略区别。
追问
追问 1:PPO 是 on-policy 还是 off-policy?
追问 2:什么是 deadly triad?
指函数近似、自举(bootstrapping,如 TD 目标)、离策略训练三者同时出现时,价值估计可能发散。三者单独通常稳定,叠加才危险。DQN 用目标网络、经验回放与梯度裁剪缓解;理论上 Gradient TD、Emphatic TD 等可保证收敛。
追问 3:离线 RL 属于哪种?
典型的 off-policy:数据集由未知行为策略产生,要学新策略。挑战是分布外动作的 Q 值外推不可靠,需保守 Q 学习(CQL)、BCQ 等约束。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究