核心要点
能说清目标:用少量「种子用户」扩出大量「相似用户」,平衡精准与规模
能讲两条技术路线:相似度法(用户 Embedding + ANN 召回)与监督法(种子作正样本训分类器)
理解负样本构造与评估(扩展人群的转化率 vs 随机人群)
知道难点:种子质量、负采样偏差、规模与精度的权衡
标准回答
目标:广告主提供一批高价值「种子用户」(如已购买用户),系统找出与他们行为/属性相似的潜在用户做定向,扩大可投放规模又不过度损失精准度。
两类主流方法:
相似度 / 向量召回法:为每个用户学习 Embedding(基于行为序列、属性、社交关系),把种子用户向量取平均或聚类作为锚点,用 ANN(近似最近邻)在全量用户中召回最相似的 Top-N。可解释、可控扩展规模。
监督分类法:把种子用户当正样本、随机/全量用户做负样本,训练一个二分类模型预测「像不像种子」,按打分阈值扩展。能融合更多特征,但需谨慎处理正负样本不平衡与采样偏差(PU Learning 视角)。
规模 vs 精度:扩展越多覆盖越大但相似度越低、转化越差,通常按相似度分档(1%/5%/10% 扩展包)让广告主权衡。
评估:对比扩展人群与随机人群的转化率/ROI,以及不同扩展档位的效果衰减曲线。
常见误区
⚠️ 常见踩坑
把全量用户当纯负样本——里面其实混有未被标记的潜在正样本(PU 问题),会低估模型;只追求扩展规模而不看相似度衰减,导致转化崩盘。
追问
追问 1:用户 Embedding 通常怎么得到?
可用行为序列模型(类似 Word2Vec/双塔/序列推荐)学习用户向量,或从推荐/广告主模型中复用用户塔输出;也可用图(用户-物品/社交图)做图表示学习。关键是 Embedding 要能反映与转化相关的兴趣,而非仅人口属性。
追问 2:种子人群很小(如几百人)怎么办?
小种子噪声大、易过拟合。可放宽到更宽的相似档、引入行业/品类先验、用半监督或迁移已有相似模型,并优先用稳健的向量相似法而非数据饥渴的复杂分类器,待积累更多转化再精细化。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。