离线强化学习（Offline RL）面临哪些挑战？

Question 1

Accepted Answer

设定

离线（batch）RL 只使用一份预先收集好的固定数据集训练，训练过程中智能体不与环境交互、无法主动探索或纠错。适合医疗、自动驾驶等在线试错代价高的场景。

主要挑战

分布偏移（Distributional Shift）：学到的策略会偏离采集数据的行为策略，从而访问到数据集中没覆盖的状态-动作分布
OOD 动作价值高估：基于 Bootstrapping 的 Q 学习会对分布外（out-of-distribution）动作给出过度乐观的价值估计，且这种误差在自举中不断累积放大，却没有真实环境反馈来纠正
数据质量受限：策略上界受数据集覆盖度与质量约束，数据没探索过的好动作学不到

典型对策

Question 2

CQL 是如何缓解价值高估的？

Accepted Answer

CQL（Conservative Q-Learning）在标准 Q 学习目标上加一项正则，主动压低数据集中未出现（OOD）动作的 Q 值、同时抬升数据内动作的 Q 值，得到真实价值的保守下界，从而避免策略被高估的 OOD 动作误导。

Question 3

为什么离线 RL 不能简单地多跑几轮在线探索来修正？

Accepted Answer

因为离线设定的前提就是不能与环境交互——可能出于安全（自动驾驶、医疗）或成本原因。没有新数据来纠正自举产生的高估误差，正是它区别于在线 RL 的根本难点，必须靠策略约束或保守估计在训练阶段就抑制误差。

核心要点