常见误区
⚠️ 常见踩坑
最致命的是在划分训练/测试之前就做重采样或 SMOTE,导致合成/复制样本泄漏到验证集,指标虚高。正确做法是只在训练折内重采样。
追问
追问 1:SMOTE 相比随机过采样好在哪?有什么风险?
随机过采样只是复制样本,易过拟合;SMOTE 在少数类近邻间插值生成「新」样本,增加多样性。风险是当少数类与多数类高度重叠时,合成样本会落入多数类区域引入噪声,可用 Borderline-SMOTE 或 SMOTE+欠采样改进。
追问 2:重采样和调类别权重该怎么选?
两者目标一致、常二选一或叠加。权重法不改数据、实现简单、无额外内存开销,多数库(如 scikit-learn 的 class_weight)原生支持;重采样在数据极端稀少或需配合 SMOTE 增多样性时更有效。可先试权重,不够再加重采样。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具
- Scikit Learn
Python 机器学习库,65,876+ stars。最流行的 Python 机器学习框架,提供分类、回归、聚类、降维等全面的 ML 算法,API 设计简洁优雅,是 ML 入门和工业实践的首选