标准回答
问题:CVR 模型需要「点击是否转化」的标签,但转化常滞后于点击(几小时到几天)。若实时训练,刚点击还没转化的样本会被当作负样本,而它其实可能稍后转化——产生大量「假负样本」,模型系统性低估 CVR。等满完整归因窗口再训练又会让模型严重滞后。
主流解法:
延迟反馈模型(Delayed Feedback Model, Criteo):联合建模「最终是否转化」与「转化延迟时间分布」(常假设指数分布),用生存分析的思路修正:观测到的「未转化」既可能真没转化、也可能只是还没回流,按延迟概率折算。
重要性加权 / 假负回补(FNW / FNC):先把样本当负样本进入在线训练,待真实转化回流后,再以正样本「纠正」并对早期错误负标做重要性加权,使期望梯度无偏。
双模型 / 多任务:一个模型预测最终转化、一个预测延迟,组合输出。
评估:必须按统一归因窗口统计实际转化,监控 PCOC(预估/实际),否则会被延迟掩盖真实偏差。
常见误区
⚠️ 常见踩坑
直接拿实时「未转化」当负样本训练而不做任何校正,CVR 会被系统性低估、出价偏低拿不到量;或一味拉长等待窗口换准确度,牺牲了模型时效。
追问
追问 1:延迟反馈和正负样本不平衡是一回事吗?
不是。不平衡指正样本绝对数量少(可用重采样/加权处理);延迟反馈是「标签随时间才确定」导致的标签噪声/偏差问题,核心是时间维度上的假负样本,需要建模延迟分布或回补纠正,二者常同时存在。
追问 2:为什么不直接等归因窗口结束再训练?
归因窗口可能长达数天,等窗口关闭模型已严重过时,无法适应快速变化的流量与素材;广告场景强调时效,所以要在「时效」与「标签准确」之间用延迟反馈建模取得平衡,而非二选一。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。