💡

文章摘要

学习 AI 如何通过与环境交互来学习。从 MDP、Q-Learning 到策略梯度和 DQN,理解 AlphaGo、机器人控制、游戏 AI 的核心技术。

0什么是强化学习?

监督学习:给你答案,你学规律。
无监督学习:没答案,你找模式。
强化学习:没答案,你试错,做对了给奖励。

就像教狗握手——做对了给零食,做错了不给,狗自己学会

1学习路线

强化学习的学习路线:

MDP(马尔可夫决策过程)— 状态、动作、奖励、转移概率

Q-Learning — 值函数、Bellman 方程

策略梯度— REINFORCE、Actor-Critic

DQN深度 Q 网络)— 经验回放、目标网络

这条路线的核心是从「表格法」过渡到「函数近似」,再到「深度神经网络

2学习建议

实战项目:

  • Q-Learning 让 Agent 学会走迷宫
  • DQN 玩 Atari 游戏

前置要求: 学过 Python、线性代数概率论基础

学 RL 最大的陷阱是「先调参后理解」——务必先把 MDP 和 Bellman 方程吃透,再碰深度 RL

架构图示 1

图表加载中…

架构图示 2

图表加载中…