推荐系统如何做探索与利用（EE）？

Question 1

推荐系统如何做探索与利用（EE）？

Accepted Answer

为什么需要 EE：只「利用」历史最优会让推荐越推越窄，新内容/新用户得不到曝光，陷入信息茧房与冷启动困境；纯「探索」又损害短期体验。EE 要在两者间权衡，常建模为 multi-armed bandit（多臂老虎机） 问题。 常用策略： - epsilon-greedy：以概率 ε 随机探索一个候选，以 1−ε 选当前估计最优。简单但探索是盲目的。 - UCB（Upper Confidence Bound）：对每个候选用「估计收益 + 不确定性奖励」打分，曝光少的候选不确定性大、奖励高，从而被「乐观地」优先探索。 - Thompson 采样：维护每个候选收益的后验分布，每次从后验中采样再选最大者；探索量由不确定性自然驱动，工程上常用、效果稳健。 应用：新物品/新创意冷启、新用户兴趣探测、广告创意优选等。通常只在小流量做探索，兼顾增量收益与体验。

Question 2

Thompson 采样相比 UCB 有什么优势？

Accepted Answer

Thompson 采样按后验分布随机化决策，天然引入随机探索，对延迟反馈、批量更新更鲁棒，工程实现简单且实测常优；UCB 是确定性策略，对置信界的参数与分布假设更敏感。

Question 3

上下文相关时该用什么？

Accepted Answer

当收益依赖用户/物品特征时，用 Contextual Bandit（如 LinUCB、Thompson with 线性/神经模型），把特征纳入收益估计，在个性化前提下做探索与利用，比无上下文的经典 bandit 更贴合推荐场景。

推荐系统如何做探索与利用（EE）？

核心要点

标准回答

常见误区

追问

延伸学习