💡
文章摘要
学习 AI 如何通过与环境交互来学习。从 MDP、Q-Learning 到策略梯度和 DQN,理解 AlphaGo、机器人控制、游戏 AI 的核心技术。
0什么是强化学习?
监督学习:给你答案,你学规律。
无监督学习:没答案,你找模式。
强化学习:没答案,你试错,做对了给奖励。
就像教狗握手——做对了给零食,做错了不给,狗自己学会。
1学习路线
强化学习的学习路线:
MDP(马尔可夫决策过程)— 状态、动作、奖励、转移概率
Q-Learning — 值函数、Bellman 方程
策略梯度— REINFORCE、Actor-Critic
这条路线的核心是从「表格法」过渡到「函数近似」,再到「深度神经网络」。
2学习建议
实战项目:
- 用 Q-Learning 让 Agent 学会走迷宫
- 用 DQN 玩 Atari 游戏
学 RL 最大的陷阱是「先调参后理解」——务必先把 MDP 和 Bellman 方程吃透,再碰深度 RL。
架构图示 1
图表加载中…
架构图示 2
图表加载中…