0什么是强化学习?
监督学习:给你答案,你学规律。
无监督学习:没答案,你找模式。
强化学习:没答案,你试错,做对了给奖励。
就像教狗握手——做对了给零食,做错了不给。狗自己学会。
1学习路线
强化学习的学习路线:
MDP(马尔可夫决策过程)— 状态、动作、奖励、转移概率
Q-Learning — 值函数、Bellman 方程
策略梯度— REINFORCE、Actor-Critic
DQN(深度 Q 网络)— 经验回放、目标网络
2学习建议
实战项目:
- 用 Q-Learning 让 Agent 学会走迷宫
- 用 DQN 玩 Atari 游戏
前置要求: 学过 Python、线性代数、概率论基础