核心要点
能定义探索(试未知)与利用(选已知最优)
知道 ε-greedy、UCB、Thompson 等经典策略
理解该权衡对收敛与遗憾界的影响
能结合业务举例(推荐冷启动)
简要回答
探索(Exploration):尝试不确定的动作,收集信息,可能短期牺牲奖励;
利用(Exploitation):选择当前估计最优的动作,最大化短期回报
标准回答
探索(Exploration):尝试不确定的动作,收集信息,可能短期牺牲奖励。
利用(Exploitation):选择当前估计最优的动作,最大化短期回报。
为何是权衡:资源(时间、交互次数)有限;纯利用可能困在局部最优(未发现的更优动作);纯探索则永远不学。
常见策略:
| 方法 | 思路 |
|---|---|
| ε-greedy | 以 ε 随机,1-ε 贪心 |
| Softmax/Boltzmann | 按 Q 值温度采样 |
| UCB | 乐观面对不确定性,偏好奇遇少的臂 |
| Thompson Sampling | 贝叶斯后验采样 |
深度 RL:DQN 用 ε 衰减;好奇心驱动(ICM)、计数法鼓励访问新状态。
业务例:推荐系统冷启动需探索新内容(探索),成熟用户需推已知偏好(利用)。详见 强化学习入门。
常见误区
⚠️ 常见踩坑
只说「随机 vs 贪心」不提衰减与状态依赖;忽视安全关键场景(医疗、自动驾驶)中盲目探索的风险。
追问
追问 1:ε-greedy 的 ε 如何设置?
常见从 1.0 线性/指数衰减到 0.01~0.05。衰减过快探索不足,过慢收敛慢。也可按状态不确定性自适应调整。
追问 2:多臂老虎机和 RL 的探索有何联系?
K 臂老虎机是单状态 MDP,探索-利用权衡研究最透彻(UCB、TS 有遗憾界)。RL 将其推广到序贯状态空间,探索更复杂。
追问 3:内在动机(Intrinsic Motivation)解决什么问题?
稀疏外在奖励时,用预测误差、状态新颖度等内在奖励驱动探索,如 ICM、RND,让 Agent 主动访问未充分探索区域。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- Gymnasium
单代理强化学习环境 API 标准库(原 Gym 的继任者),提供丰富参考环境,适用于 RL 训练和研究