强化学习中的探索与利用如何权衡？

Question 1

强化学习中的探索与利用如何权衡？

Accepted Answer

探索（Exploration）：尝试不确定的动作，收集信息，可能短期牺牲奖励。 利用（Exploitation）：选择当前估计最优的动作，最大化短期回报。 为何是权衡：资源（时间、交互次数）有限；纯利用可能困在局部最优（未发现的更优动作）；纯探索则永远不学。 常见策略： 方法 思路 ------ ------ ε-greedy 以 ε 随机，1-ε 贪心 Softmax/Boltzmann 按 Q 值温度采样 UCB 乐观面对不确定性，偏好奇遇少的臂 Thompson Sampling 贝叶斯后验采样 深度 RL：DQN 用 ε 衰减；好奇心驱动（ICM）、计数法鼓励访问新状态。 业务例：推荐系统冷启动需探索新内容（探索），成熟用户需推已知偏好（利用）。详见 强化学习入门。

Question 2

ε-greedy 的 ε 如何设置？

Accepted Answer

常见从 1.0 线性/指数衰减到 0.01～0.05。衰减过快探索不足，过慢收敛慢。也可按状态不确定性自适应调整。

Question 3

多臂老虎机和 RL 的探索有何联系？

Accepted Answer

K 臂老虎机是单状态 MDP，探索-利用权衡研究最透彻（UCB、TS 有遗憾界）。RL 将其推广到序贯状态空间，探索更复杂。

Question 4

内在动机（Intrinsic Motivation）解决什么问题？

Accepted Answer

稀疏外在奖励时，用预测误差、状态新颖度等内在奖励驱动探索，如 ICM、RND，让 Agent 主动访问未充分探索区域。

强化学习中的探索与利用如何权衡？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


方法	思路
ε-greedy	以 ε 随机，1-ε 贪心
Softmax/Boltzmann	按 Q 值温度采样
UCB	乐观面对不确定性，偏好奇遇少的臂
Thompson Sampling	贝叶斯后验采样