核心要点

  • 能定义行为策略 vs 目标策略

  • 举例 SARSA(on) vs Q-Learning(off)

  • 理解 off-policy 的数据复用与稳定性挑战

  • 知道重要性采样在 off-policy 中的作用

简要回答

On-policy(同策略):用于更新的数据必须由当前正在优化的策略产生;学的是 π 自身的 Q^π 或 V^π

标准回答

On-policy(同策略):用于更新的数据必须由当前正在优化的策略产生。学的是 π 自身的 Q^π 或 V^π。

  • 例:SARSA、蒙特卡洛 on-policy、PPO(通常用当前策略 rollout)

Off-policy(异策略):行为策略 μ 可与目标策略 π 不同,用 μ 采集的数据学 π(常为最优策略)。

  • 例:Q-Learning(ε-greedy 探索,学 greedy Q*)、DQN(经验回放含旧策略数据)
维度 On-policy Off-policy
数据效率 样本即用即弃 可复用历史(回放)
探索 与学习目标耦合 可激进探索、学保守最优
稳定性 较稳 deadly triad 风险
代表 PPO, SARSA DQN, Q-Learning

Off-policy 校正:重要性采样比率 ρ = π(a|s)/μ(a|s) 加权修正分布偏移。详见 RL 算法概览

常见误区

⚠️ 常见踩坑

把「off-policy = 离线」混淆(off-policy 仍可在线交互);说不清行为策略与目标策略区别。

追问

追问 1PPO 是 on-policy 还是 off-policy?

本质是 on-policy:用当前策略 rollout 采集数据训练同一策略。但它在一批数据上做多个 epoch 的小批量更新,更新中数据已轻微「过时」,靠重要性比率 r=π_new/π_old 与 clip 截断把偏移控制在信任域内,因此常被称为「近似 on-policy」,而非可任意复用旧数据的 off-policy。

追问 2什么是 deadly triad?

指函数近似、自举(bootstrapping,如 TD 目标)、离策略训练三者同时出现时,价值估计可能发散。三者单独通常稳定,叠加才危险。DQN 用目标网络、经验回放与梯度裁剪缓解;理论上 Gradient TD、Emphatic TD 等可保证收敛。

追问 3离线 RL 属于哪种?

典型的 off-policy:数据集由未知行为策略产生,要学新策略。挑战是分布外动作的 Q 值外推不可靠,需保守 Q 学习(CQL)、BCQ 等约束。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。