核心要点

  • 分层监控:系统层(延迟/吞吐/错误率)、数据层(输入分布、缺失/异常值)、模型层(预测分布、业务指标)。

  • 数据漂移指输入分布 P(x) 变化,用 PSI、KS 检验、卡方检验对比线上与训练基线分布。

  • 概念漂移指 P(y|x) 关系变化,表现为精度/AUC 下降,需有标签或延迟标签才能确认。

  • 标签往往滞后,先用代理信号(预测分布偏移、置信度下降、人工抽检)预警,再用回流标签确认。

标准回答

监控分层

线上监控不只是看模型准不准。要分三层:系统层(延迟、吞吐、错误率、资源)、数据层(特征分布、缺失率、范围越界)、模型层(预测分布、校准度、业务指标如 CTR/转化)。

数据漂移 vs 概念漂移

  • 数据漂移:输入分布 P(x) 变了(如新用户群、季节性)。用 PSI(>0.2 警示)、KS 检验、卡方检验对比线上特征与训练基线。无需标签即可检测。
  • 概念漂移:输入与标签的关系 P(y|x) 变了(如用户偏好迁移、对抗行为),直接表现为精度、AUC 下降。必须有真实标签才能确认。

两者常并存,但处理方式不同:数据漂移可能只需补数据,概念漂移往往要重训甚至重设计特征。

落地实践

设训练分布为基线,定时计算漂移指标并告警;标签延迟时用预测分布偏移、置信度、人工抽检做早期预警;接入 shadow/在线指标与可观测性体系,配合自动重训触发。

常见误区

⚠️ 常见踩坑

别把数据漂移和概念漂移混为一谈:输入分布没变(PSI 正常)精度也可能因 P(y|x) 改变而下降。也别只盯整体指标——漂移常发生在细分群体,需按关键切片分桶监控。

追问

追问 1PSI 怎么算,阈值如何定?

PSI = Σ(线上占比−基线占比)·ln(线上占比/基线占比),按分箱累加。经验阈值:<0.1 稳定,0.1–0.25 需关注,>0.25 显著漂移。阈值应结合特征重要性与业务波动校准,高基数/连续特征先分箱。

追问 2标签延迟很久(如风控、转化),怎么监控?

用无标签代理信号:预测分布漂移、模型置信度/熵变化、PSI、人工抽检小样本。同时搭建标签回流管道,标签到位后回算真实精度做事后校验,并对比代理信号的预警准确性。

追问 3检测到漂移后怎么处理?

先定位是数据漂移还是概念漂移、影响哪些切片。轻则增量补数据、调阈值/校准;重则触发重训并经离线评估+影子流量验证后灰度上线。建立自动重训流水线与回滚机制,避免盲目全量替换。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。