核心要点
利用:推已知用户喜欢的;探索:试探不确定的新内容/新用户
epsilon-greedy:以概率 ε 随机探索,其余时间选当前最优
UCB:给不确定性高的候选加置信上界奖励,乐观探索
Thompson 采样:按后验分布采样选择,自然平衡探索与利用
标准回答
为什么需要 EE:只「利用」历史最优会让推荐越推越窄,新内容/新用户得不到曝光,陷入信息茧房与冷启动困境;纯「探索」又损害短期体验。EE 要在两者间权衡,常建模为 multi-armed bandit(多臂老虎机) 问题。
常用策略:
- epsilon-greedy:以概率 ε 随机探索一个候选,以 1−ε 选当前估计最优。简单但探索是盲目的。
- UCB(Upper Confidence Bound):对每个候选用「估计收益 + 不确定性奖励」打分,曝光少的候选不确定性大、奖励高,从而被「乐观地」优先探索。
- Thompson 采样:维护每个候选收益的后验分布,每次从后验中采样再选最大者;探索量由不确定性自然驱动,工程上常用、效果稳健。
应用:新物品/新创意冷启、新用户兴趣探测、广告创意优选等。通常只在小流量做探索,兼顾增量收益与体验。
常见误区
⚠️ 常见踩坑
EE 不是「随机推一些内容」就够了;epsilon-greedy 的盲目探索效率低。应优先用 UCB/Thompson 这类基于不确定性的探索,把探索预算花在信息增益大的候选上。
追问
追问 1:Thompson 采样相比 UCB 有什么优势?
Thompson 采样按后验分布随机化决策,天然引入随机探索,对延迟反馈、批量更新更鲁棒,工程实现简单且实测常优;UCB 是确定性策略,对置信界的参数与分布假设更敏感。
追问 2:上下文相关时该用什么?
当收益依赖用户/物品特征时,用 Contextual Bandit(如 LinUCB、Thompson with 线性/神经模型),把特征纳入收益估计,在个性化前提下做探索与利用,比无上下文的经典 bandit 更贴合推荐场景。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。