同策略学习与异策略学习有何区别？

Question 1

同策略学习与异策略学习有何区别？

Accepted Answer

On-policy（同策略）：用于更新的数据必须由当前正在优化的策略产生。学的是 π 自身的 Q^π 或 V^π。 - 例：SARSA、蒙特卡洛 on-policy、PPO（通常用当前策略 rollout） Off-policy（异策略）：行为策略 μ 可与目标策略 π 不同，用 μ 采集的数据学 π（常为最优策略）。 - 例：Q-Learning（ε-greedy 探索，学 greedy Q*）、DQN（经验回放含旧策略数据） 维度 On-policy Off-policy ------ ----------- ------------ 数据效率 样本即用即弃 可复用历史（回放） 探索 与学习目标耦合 可激进探索、学保守最优 稳定性 较稳 deadly triad 风险 代表 PPO, SARSA DQN, Q-Learning Off-policy 校正：重要性采样比率 ρ = π(a s)/μ(a s) 加权修正分布偏移。详见 RL 算法概览。

Question 2

PPO 是 on-policy 还是 off-policy？

Accepted Answer

本质是 on-policy：用当前策略 rollout 采集数据训练同一策略。但它在一批数据上做多个 epoch 的小批量更新，更新中数据已轻微「过时」，靠重要性比率 r=π_new/π_old 与 clip 截断把偏移控制在信任域内，因此常被称为「近似 on-policy」，而非可任意复用旧数据的 off-policy。

Question 3

什么是 deadly triad？

Accepted Answer

指函数近似、自举（bootstrapping，如 TD 目标）、离策略训练三者同时出现时，价值估计可能发散。三者单独通常稳定，叠加才危险。DQN 用目标网络、经验回放与梯度裁剪缓解；理论上 Gradient TD、Emphatic TD 等可保证收敛。

Question 4

离线 RL 属于哪种？

Accepted Answer

典型的 off-policy：数据集由未知行为策略产生，要学新策略。挑战是分布外动作的 Q 值外推不可靠，需保守 Q 学习（CQL）、BCQ 等约束。

同策略学习与异策略学习有何区别？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


维度	On-policy	Off-policy
数据效率	样本即用即弃	可复用历史（回放）
探索	与学习目标耦合	可激进探索、学保守最优
稳定性	较稳	deadly triad 风险
代表	PPO, SARSA	DQN, Q-Learning