Look-alike 相似人群扩展是怎么用机器学习做的？

Question 1

Accepted Answer

目标：广告主提供一批高价值「种子用户」（如已购买用户），系统找出与他们行为/属性相似的潜在用户做定向，扩大可投放规模又不过度损失精准度。

两类主流方法：

相似度 / 向量召回法：为每个用户学习 Embedding（基于行为序列、属性、社交关系），把种子用户向量取平均或聚类作为锚点，用 ANN（近似最近邻）在全量用户中召回最相似的 Top-N。可解释、可控扩展规模。
监督分类法：把种子用户当正样本、随机/全量用户做负样本，训练一个二分类模型预测「像不像种子」，按打分阈值扩展。能融合更多特征，但需谨慎处理正负样本不平衡与采样偏差（PU Learning 视角）。

规模 vs 精度：扩展越多覆盖越大但相似度越低、转化越差，通常按相似度分档（1%/5%/10% 扩展包）让广告主权衡。

评估：对比扩展人群与随机人群的转化率/ROI，以及不同扩展档位的效果衰减曲线。

Question 2

用户 Embedding 通常怎么得到？

Accepted Answer

可用行为序列模型（类似 Word2Vec/双塔/序列推荐）学习用户向量，或从推荐/广告主模型中复用用户塔输出；也可用图（用户-物品/社交图）做图表示学习。关键是 Embedding 要能反映与转化相关的兴趣，而非仅人口属性。

Question 3

种子人群很小（如几百人）怎么办？

Accepted Answer

小种子噪声大、易过拟合。可放宽到更宽的相似档、引入行业/品类先验、用半监督或迁移已有相似模型，并优先用稳健的向量相似法而非数据饥渴的复杂分类器，待积累更多转化再精细化。

核心要点