核心要点
能定义 RL 的交互式序贯决策范式
对比三种范式:标签、无标签、奖励信号
理解延迟奖励与探索-利用
能举典型应用(游戏、机器人、推荐)
标准回答
常见误区
⚠️ 常见踩坑
只说「有奖励就是 RL」却忽略序贯决策;把 bandit(单步)与完整 MDP 混为一谈。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究
强化学习 中 Agent 通过与环境交互获得奖励反馈,学习最大化长期 回报 的策略;不同于监督学习的标注标签和无监督的结构发现。