什么是强化学习？它与监督/无监督学习有何区别？

Question 1

Accepted Answer

强化学习：智能体在环境中序贯决策，每步获得标量奖励，目标是最大化累积折扣回报。无监督提供「正确答案」，只有延迟、可能稀疏的反馈。 范式 信号 数据 目标 ------ ------ ------ ------ 监督学习 标签 y (x,y) 独立同分布 最小化预测误差 无监督学习 无标签 x 发现结构/表示 强化学习 奖励 r 轨迹 (s,a,r,...) 最大化长期回报 关键差异： 1. 序贯性：当前动作影响未来状态与奖励 2. 探索-利用：需主动尝试未知动作获取信息 3. 信用分配：哪步动作导致了最终奖励？ 4. 分布偏移：数据分布随策略变化（非 i.i.d.） 应用：AlphaGo、机器人控制、自动驾驶决策、广告出价、LLM RLHF 对齐。详见 强化学习入门。

Question 2

RLHF 算强化学习还是监督学习？

Accepted Answer

混合范式：SFT 是监督；奖励模型训练类似监督/排序；PPO 等对齐阶段是 RL。整体管线用 RL 优化人类偏好，但离不开监督预训练基础。

Question 3

模仿学习（IL）和 RL 有何关系？

Accepted Answer

IL 用专家轨迹当监督信号学策略，无需奖励设计；RL 从奖励试错学习。GAIL 等结合两者：IL 初始化 + RL 微调，或 RL 用 IL 约束防偏离。

Question 4

离线 RL 和在线 RL 区别？

Accepted Answer

在线 RL 可持续与环境交互采集数据；离线 RL 只用固定历史数据集，面临分布偏移和 extrapolation 误差，更接近「从日志学策略」的工程场景。

什么是强化学习？它与监督/无监督学习有何区别？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


范式	信号	数据	目标
监督学习	标签 y	(x,y) 独立同分布	最小化预测误差
无监督学习	无标签	x	发现结构/表示
强化学习	奖励 r	轨迹 (s,a,r,...)	最大化长期回报