什么是深度 Q 网络（DQN）？它如何结合强化学习与深度神经网络？

Question 1

Accepted Answer

核心思想：强化学习 中 Q-Learning 维护 Q(s,a) 表；当状态空间高维（如 Atari 像素帧）时表格不可行。DQN（Mnih et al., 2015）用 神经网络 Q_θ(s,a) 做函数近似。 关键机制： 1. 经验回放（Experience Replay）：把转移 (s,a,r,s') 存入缓冲区，随机 mini-batch 采样，打破序列相关性、提高样本效率。 2. 目标网络：用滞后参数 θ⁻ 计算 TD 目标 y = r + γ max Q(s',·;θ⁻)，减少自举带来的震荡。 3. ε-greedy 探索：以 ε 概率随机动作，平衡探索与利用。 损失：L = E[(y - Q(s,a;θ))²]，用 SGD/Adam 更新 θ。 工程实践：常用 Gymnasium 环境 + PyTorch/TensorFlow 实现；仿真充分验证后再考虑真实部署。详见 深度 Q 网络。

Question 2

DQN 为什么会出现 Q 值高估？

Accepted Answer

max 操作同时用于选动作和估值，噪声会被系统性放大。Double DQN 用在线网络选动作、目标网络估值，缓解高估；Dueling DQN 分离状态价值 V(s) 与优势 A(s,a) 进一步稳定学习。

Question 3

DQN 能直接处理连续动作空间吗？

Accepted Answer

标准 DQN 针对离散动作做 argmax。连续控制需 DDPG、TD3、SAC 等 Actor-Critic 方法，或用动作离散化（精度受限）。面试应说明问题域与算法匹配。

Question 4

目标网络多久同步一次？

Accepted Answer

两种做法：硬更新每隔 C 步（Atari 中常用 ~10⁴ 步）直接复制 θ→θ⁻；软更新每步做 θ⁻ ← τθ + (1-τ)θ⁻，τ 取 0.001~0.005（DDPG/SAC 常用）。同步太频繁失去稳定 TD 目标的意义，太慢则目标陈旧拖慢学习。

什么是深度 Q 网络（DQN）？它如何结合强化学习与深度神经网络？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习