核心要点

  • 能定义探索(试未知)与利用(选已知最优)

  • 知道 ε-greedy、UCB、Thompson 等经典策略

  • 理解该权衡对收敛与遗憾界的影响

  • 能结合业务举例(推荐冷启动)

简要回答

探索(Exploration):尝试不确定的动作,收集信息,可能短期牺牲奖励;
利用(Exploitation):选择当前估计最优的动作,最大化短期回报

标准回答

探索(Exploration):尝试不确定的动作,收集信息,可能短期牺牲奖励。
利用(Exploitation):选择当前估计最优的动作,最大化短期回报。

为何是权衡:资源(时间、交互次数)有限;纯利用可能困在局部最优(未发现的更优动作);纯探索则永远不学。

常见策略

方法 思路
ε-greedy 以 ε 随机,1-ε 贪心
Softmax/Boltzmann 按 Q 值温度采样
UCB 乐观面对不确定性,偏好奇遇少的臂
Thompson Sampling 贝叶斯后验采样

深度 RLDQN 用 ε 衰减;好奇心驱动(ICM)、计数法鼓励访问新状态。

业务例:推荐系统冷启动需探索新内容(探索),成熟用户需推已知偏好(利用)。详见 强化学习入门

常见误区

⚠️ 常见踩坑

只说「随机 vs 贪心」不提衰减与状态依赖;忽视安全关键场景(医疗、自动驾驶)中盲目探索的风险。

追问

追问 1ε-greedy 的 ε 如何设置?

常见从 1.0 线性/指数衰减到 0.01~0.05。衰减过快探索不足,过慢收敛慢。也可按状态不确定性自适应调整。

追问 2多臂老虎机和 RL 的探索有何联系?

K 臂老虎机是单状态 MDP,探索-利用权衡研究最透彻(UCB、TS 有遗憾界)。RL 将其推广到序贯状态空间,探索更复杂。

追问 3内在动机(Intrinsic Motivation)解决什么问题?

稀疏外在奖励时,用预测误差、状态新颖度等内在奖励驱动探索,如 ICM、RND,让 Agent 主动访问未充分探索区域。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。