核心要点
分层监控:系统层(延迟/吞吐/错误率)、数据层(输入分布、缺失/异常值)、模型层(预测分布、业务指标)。
数据漂移指输入分布 P(x) 变化,用 PSI、KS 检验、卡方检验对比线上与训练基线分布。
概念漂移指 P(y|x) 关系变化,表现为精度/AUC 下降,需有标签或延迟标签才能确认。
标签往往滞后,先用代理信号(预测分布偏移、置信度下降、人工抽检)预警,再用回流标签确认。
标准回答
监控分层
线上监控不只是看模型准不准。要分三层:系统层(延迟、吞吐、错误率、资源)、数据层(特征分布、缺失率、范围越界)、模型层(预测分布、校准度、业务指标如 CTR/转化)。
数据漂移 vs 概念漂移
- 数据漂移:输入分布 P(x) 变了(如新用户群、季节性)。用 PSI(>0.2 警示)、KS 检验、卡方检验对比线上特征与训练基线。无需标签即可检测。
- 概念漂移:输入与标签的关系 P(y|x) 变了(如用户偏好迁移、对抗行为),直接表现为精度、AUC 下降。必须有真实标签才能确认。
两者常并存,但处理方式不同:数据漂移可能只需补数据,概念漂移往往要重训甚至重设计特征。
落地实践
设训练分布为基线,定时计算漂移指标并告警;标签延迟时用预测分布偏移、置信度、人工抽检做早期预警;接入 shadow/在线指标与可观测性体系,配合自动重训触发。
常见误区
⚠️ 常见踩坑
别把数据漂移和概念漂移混为一谈:输入分布没变(PSI 正常)精度也可能因 P(y|x) 改变而下降。也别只盯整体指标——漂移常发生在细分群体,需按关键切片分桶监控。
追问
追问 1:PSI 怎么算,阈值如何定?
PSI = Σ(线上占比−基线占比)·ln(线上占比/基线占比),按分箱累加。经验阈值:<0.1 稳定,0.1–0.25 需关注,>0.25 显著漂移。阈值应结合特征重要性与业务波动校准,高基数/连续特征先分箱。
追问 2:标签延迟很久(如风控、转化),怎么监控?
用无标签代理信号:预测分布漂移、模型置信度/熵变化、PSI、人工抽检小样本。同时搭建标签回流管道,标签到位后回算真实精度做事后校验,并对比代理信号的预警准确性。
追问 3:检测到漂移后怎么处理?
先定位是数据漂移还是概念漂移、影响哪些切片。轻则增量补数据、调阈值/校准;重则触发重训并经离线评估+影子流量验证后灰度上线。建立自动重训流水线与回滚机制,避免盲目全量替换。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具
- Weights & Biases
AI 开发者平台,用于模型训练、微调、实验管理和生产部署,支持从实验到生产的全流程管理。