Cross-Validation（交叉验证）

就是把数据分成几份，轮流拿一份来测试、其余来训练，最后取平均——这样比只测一次更准。

亦作、亦称：交叉验证 · CV · k-fold cross-validation · k折交叉验证 · k-fold Cross-Validation

交叉验证通过多轮数据切分与模型训练，给出比单次 hold-out 更可靠的泛化能力估计。它是模型选择、超参数调优和算法公平比较的基石方法。

概述

交叉验证（Cross-Validation，CV）是评估机器学习模型泛化能力的标准手段。

以最常见的 k 折交叉验证 为例，流程如下：

不同场景对应不同的 CV 变体：

交叉验证在机器学习工作流的多个环节发挥关键作用：

交叉验证常与以下概念混淆：

Hold-out 验证：一次性将数据分为训练/验证/测试三部分；CV 是 hold-out 的多次重复版本，方差更低，但计算成本更高。
验证集 vs 测试集：CV 的验证集（validation set）用于训练阶段决策（如选超参数）；测试集（test set）应保持完全独立，仅用于最终报告性能，二者绝不应混用。
Bootstrap 估计：自助法通过有放回抽样多次采样，与 CV 互补，在极小数据集上有时更稳定。
Train-test split：仅做一次随机分割，结果受随机种子影响大；CV 通过多次分割消除此依赖。

正确使用交叉验证需避免以下陷阱：

数据泄露（Data Leakage）：若在 CV 循环外做归一化、特征选择等预处理，验证集信息会渗入训练，导致评估过于乐观；正确做法是将预处理放入 Pipeline，在每折内独立拟合。
时序数据随机打乱：对时间序列数据使用标准 k 折会造成未来信息泄露，必须使用 Time Series Split。
将 CV 最优参数对应的折作为测试集：不能用内层 CV 的验证结果估计最终泛化误差，需用独立测试集。
忽略折间方差：仅报告平均指标而不报告标准差，会掩盖模型的不稳定性。
计算成本低估：深度学习模型做 10 折 CV 成本极高，实践中常用 3 折或单次 hold-out 替代。

交叉验证的思想经历了数十年演进：

1931 年：Larson 在心理学领域首次提出 hold-out 验证的必要性。
1968 年：Lachenbruch & Mickey 将留一法（LOO）用于判别分析错误率估计。
1974–1975 年：Stone 和 Geisser 分别独立发表论文，奠定交叉验证的统计理论基础；Geisser 提出「预测样本重用法」，强调预测而非参数估计。
1984 年：Breiman 等人的 CART 一书推广了交叉验证在决策树剪枝中的应用。
1997 年：Kohavi 系统比较了 k 折 CV 与 hold-out 方法，确立 10 折 CV 作为实践基准的地位。
2000 年代至今：scikit-learn 等框架将 CV 标准化为 API，嵌套 CV 和 时间序列 CV 成为高级实践规范；深度学习时代因训练成本高，催生了更高效的验证策略研究。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。