什么是数据泄漏（Data Leakage）？如何避免？

Question 1

Accepted Answer

什么是数据泄漏 模型在训练阶段「偷看」到了推理时拿不到的信息，导致线下指标虚高、上线性能骤降。典型表现是验证分数好得反常。 两类常见来源 预处理泄漏：在切分训练/测试之前，对整个数据集 fit 标准化、归一化、缺失值填充或目标编码，测试集的均值/方差等统计量泄漏进了训练。目标泄漏：特征本身由标签衍生，或包含「未来」信息——例如用「账户已被冻结」去预测「是否欺诈」，该字段是结果而非原因。 如何避免 先划分数据集，再只在训练集上 fit 预处理并 transform 应用到测试集；把所有预处理步骤封进 Pipeline，使交叉验证每一折都只在训练部分拟合。时序数据按时间切分、用滚动窗口而非随机划分。上线前逐个特征核对其在预测时刻是否真实可得。

Question 2

怎么判断线下好、线上差是否因为数据泄漏？

Accepted Answer

先核对特征在预测时刻是否可得、有无标签衍生字段；再检查预处理是否在划分前做。可做时间外推验证（用更晚的数据当测试集），若指标大幅下滑且能定位到某个「太强」的特征，多半是泄漏。

Question 3

目标编码（target encoding）为何易泄漏，如何缓解？

Accepted Answer

它用标签的均值替换类别，本身把目标信息编进了特征。缓解办法是用折外编码（K 折内交叉计算）或留一编码，并加平滑，确保每个样本的编码不使用自身标签。

什么是数据泄漏（Data Leakage）？如何避免？

核心要点

标准回答

常见误区

追问

延伸学习