核心要点

  • 能说明 Q-Learning 与深度网络结合解决维度灾难

  • 理解经验回放、目标网络、ε-greedy 三大稳定技巧

  • 能对比表格 Q 与函数近似的优劣

  • 知道 DQN 局限(离散动作、高估偏差)及 Double DQN 等改进

简要回答

核心思想强化学习 中 Q-Learning 维护 Q(s,a) 表;当状态空间高维(如 Atari 像素帧)时表格不可行

标准回答

核心思想:强化学习 中 Q-Learning 维护 Q(s,a) 表;当状态空间高维(如 Atari 像素帧)时表格不可行。DQN(Mnih et al., 2015)用 神经网络 Q_θ(s,a) 做函数近似。

关键机制

  1. 经验回放(Experience Replay):把转移 (s,a,r,s') 存入缓冲区,随机 mini-batch 采样,打破序列相关性、提高样本效率。
  2. 目标网络:用滞后参数 θ⁻ 计算 TD 目标 y = r + γ max Q(s',·;θ⁻),减少自举带来的震荡。
  3. ε-greedy 探索:以 ε 概率随机动作,平衡探索与利用。

损失:L = E[(y - Q(s,a;θ))²],用 SGD/Adam 更新 θ。

工程实践:常用 Gymnasium 环境 + PyTorch/TensorFlow 实现;仿真充分验证后再考虑真实部署。详见 深度 Q 网络

常见误区

⚠️ 常见踩坑

只背「神经网络+Q 表」却说不清经验回放与目标网络各自解决什么问题;把 DQN 当成监督学习回归而忽略 bootstrapping 与分布偏移。

追问

追问 1DQN 为什么会出现 Q 值高估?

max 操作同时用于选动作和估值,噪声会被系统性放大。Double DQN 用在线网络选动作、目标网络估值,缓解高估;Dueling DQN 分离状态价值 V(s) 与优势 A(s,a) 进一步稳定学习。

追问 2DQN 能直接处理连续动作空间吗?

标准 DQN 针对离散动作做 argmax。连续控制需 DDPG、TD3、SAC 等 Actor-Critic 方法,或用动作离散化(精度受限)。面试应说明问题域与算法匹配。

追问 3目标网络多久同步一次?

两种做法:硬更新每隔 C 步(Atari 中常用 10⁴ 步)直接复制 θ→θ⁻;软更新每步做 θ⁻ ← τθ + (1-τ)θ⁻,τ 取 0.0010.005(DDPG/SAC 常用)。同步太频繁失去稳定 TD 目标的意义,太慢则目标陈旧拖慢学习。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。