推荐系统中的 Embedding 是如何学习与应用的？

Question 1

Accepted Answer

是什么：用户 ID、物品 ID、类目、标签等都是高维稀疏的离散特征，one-hot 维度巨大且无语义。Embedding 把每个 ID/特征映射为一个低维稠密向量，存于 embedding table，把「字符串/编号」变成「可计算的几何点」。 怎么学：embedding table 是模型的可训练参数，作为网络第一层，随主任务（CTR 预估、召回对比学习等）端到端反向传播学习。被一起点击/共现的物品，其向量会被拉近，从而在空间中编码出行为语义。也可用 word2vec 式（item2vec）自监督预训练。 怎么用： - 精排：embedding 作为稠密特征喂给 DNN，并与其他特征做交叉。 - 召回：双塔等模型直接产出用户向量与物品向量，物品向量离线入库，线上用 ANN（FAISS/HNSW）按内积检索 Top-K。 价值：稠密表示泛化好、缓解稀疏；学到的向量可迁移复用到其他任务（如新模型冷启）。

Question 2

推荐里 ID Embedding 的冷启动怎么处理？

Accepted Answer

新 ID 没有学到的向量。常见做法：用其内容/属性特征的 embedding 做初始化或回退，用相似物品向量均值，或引入侧信息塔生成向量；逐步累积交互后再让 ID embedding 接管。

Question 3

为什么 embedding 维度不是越大越好？

Accepted Answer

维度过大显存与计算开销剧增，且在稀疏数据下易过拟合、长尾 ID 学不充分；维度过小则表达力不足。需在效果与成本间权衡，常对高频/低频 ID 用混合维度等技巧。

推荐系统中的 Embedding 是如何学习与应用的？

核心要点

标准回答

常见误区

追问

延伸学习