如何监控线上模型？数据漂移与概念漂移如何检测？

Question 1

Accepted Answer

监控分层 线上监控不只是看模型准不准。要分三层：系统层（延迟、吞吐、错误率、资源）、数据层（特征分布、缺失率、范围越界）、模型层（预测分布、校准度、业务指标如 CTR/转化）。 数据漂移 vs 概念漂移 - 数据漂移：输入分布 P(x) 变了（如新用户群、季节性）。用 PSI（>0.2 警示）、KS 检验、卡方检验对比线上特征与训练基线。无需标签即可检测。 - 概念漂移：输入与标签的关系 P(y x) 变了（如用户偏好迁移、对抗行为），直接表现为精度、AUC 下降。必须有真实标签才能确认。 两者常并存，但处理方式不同：数据漂移可能只需补数据，概念漂移往往要重训甚至重设计特征。 落地实践 设训练分布为基线，定时计算漂移指标并告警；标签延迟时用预测分布偏移、置信度、人工抽检做早期预警；接入 shadow/在线指标与可观测性体系，配合自动重训触发。

Question 2

PSI 怎么算，阈值如何定？

Accepted Answer

PSI = Σ(线上占比−基线占比)·ln(线上占比/基线占比)，按分箱累加。经验阈值：<0.1 稳定，0.1–0.25 需关注，>0.25 显著漂移。阈值应结合特征重要性与业务波动校准，高基数/连续特征先分箱。

Question 3

标签延迟很久（如风控、转化），怎么监控？

Accepted Answer

用无标签代理信号：预测分布漂移、模型置信度/熵变化、PSI、人工抽检小样本。同时搭建标签回流管道，标签到位后回算真实精度做事后校验，并对比代理信号的预警准确性。

Question 4

检测到漂移后怎么处理？

Accepted Answer

先定位是数据漂移还是概念漂移、影响哪些切片。轻则增量补数据、调阈值/校准；重则触发重训并经离线评估+影子流量验证后灰度上线。建立自动重训流水线与回滚机制，避免盲目全量替换。

如何监控线上模型？数据漂移与概念漂移如何检测？

核心要点

标准回答

常见误区

追问

延伸学习