核心要点

  • 能定义 RL 的交互式序贯决策范式

  • 对比三种范式:标签、无标签、奖励信号

  • 理解延迟奖励与探索-利用

  • 能举典型应用(游戏、机器人、推荐)

简要回答

强化学习智能体在环境中序贯决策,每步获得标量奖励,目标是最大化累积折扣回报;无监督提供「正确答案」,只有延迟、可能稀疏的反馈

标准回答

强化学习:智能体在环境中序贯决策,每步获得标量奖励,目标是最大化累积折扣回报。无监督提供「正确答案」,只有延迟、可能稀疏的反馈。

范式 信号 数据 目标
监督学习 标签 y (x,y) 独立同分布 最小化预测误差
无监督学习 无标签 x 发现结构/表示
强化学习 奖励 r 轨迹 (s,a,r,...) 最大化长期回报

关键差异

  1. 序贯性:当前动作影响未来状态与奖励
  2. 探索-利用:需主动尝试未知动作获取信息
  3. 信用分配:哪步动作导致了最终奖励?
  4. 分布偏移:数据分布随策略变化(非 i.i.d.)

应用:AlphaGo、机器人控制、自动驾驶决策、广告出价、LLM RLHF 对齐。详见 强化学习入门

常见误区

⚠️ 常见踩坑

只说「有奖励就是 RL」却忽略序贯决策;把 bandit(单步)与完整 MDP 混为一谈。

追问

追问 1RLHF 算强化学习还是监督学习?

混合范式:SFT 是监督;奖励模型训练类似监督/排序;PPO 等对齐阶段是 RL。整体管线用 RL 优化人类偏好,但离不开监督预训练基础。

追问 2模仿学习(IL)和 RL 有何关系?

IL 用专家轨迹当监督信号学策略,无需奖励设计;RL 从奖励试错学习。GAIL 等结合两者:IL 初始化 + RL 微调,或 RL 用 IL 约束防偏离。

追问 3离线 RL 和在线 RL 区别?

在线 RL 可持续与环境交互采集数据;离线 RL 只用固定历史数据集,面临分布偏移和 extrapolation 误差,更接近「从日志学策略」的工程场景。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。