训练 / 验证 / 测试集如何划分？为什么需要验证集？

Question 1

Accepted Answer

三者分工 - 训练集：用于拟合模型参数； - 验证集：用于在多个候选模型/超参之间做选择、早停、特征筛选——即一切「调」的决策都看验证集表现； - 测试集：模拟未来未见数据，只在方案完全确定后评估一次，给出无偏的泛化估计。 典型比例如 6:2:2 或 8:1:1，数据量越大测试比例可越小。 为什么需要验证集 如果直接用测试集来挑超参，相当于让模型「偷看」了测试集——你会反复选在测试集上碰巧最好的配置，导致信息泄露、测试指标虚高，无法反映真实泛化。验证集把「调参」与「最终评估」隔离开：调参在验证集上做，测试集保持干净。 数据不够怎么办 样本少时用 K 折交叉验证：把训练数据分 K 份轮流当验证集，平均结果更稳、利用率更高。类别不均衡用分层抽样保持各集比例一致；时间序列必须按时间顺序划分，避免用未来预测过去。

Question 2

什么时候用交叉验证而不是固定验证集？

Accepted Answer

数据量小、单次划分方差大时用 K 折交叉验证：轮流用每一折做验证、其余训练，平均得到更稳健的估计，也充分利用数据。数据极大时固定划分即可，省算力。

Question 3

数据预处理（如标准化）应在哪一步做？

Accepted Answer

必须只在训练集上拟合（算均值方差、选特征），再用同样参数变换验证/测试集；交叉验证里要把预处理放进 Pipeline 随每折重新拟合。否则统计量含了验证/测试信息，造成数据泄露。

Question 4

时间序列数据如何划分？

Accepted Answer

不能随机打乱，必须按时间切：用过去训练、未来验证/测试，可用滚动/扩窗的时序交叉验证（TimeSeriesSplit）。这样才能避免「用未来信息预测过去」的泄露，贴近真实上线场景。

训练 / 验证 / 测试集如何划分？为什么需要验证集？

核心要点

标准回答

常见误区

追问

延伸学习