Random Forest(随机森林)

随机森林就是让一群决策树投票,多数票赢,所以比单棵树准多了

亦作、亦称:随机森林 · RF

随机森林通过并行训练大量随机化决策树并汇总预测结果,在分类与回归任务中兼顾准确性与鲁棒性。它是传统机器学习领域最广泛应用的算法之一,也是特征重要性分析的重要工具。

概述

随机森林是集成学习中 Bagging 范式的代表性算法,以决策树为基学习器。

  • 集成学习:通过组合多个弱学习器来构建更强的预测模型
  • 双重随机化:数据层面的 Bootstrap 抽样 + 特征层面的随机子空间选择
  • 并行训练:各棵树相互独立,可充分利用多核并行加速
  • 通用性强:同时支持分类(多数投票)与回归(均值聚合)任务
  • 开箱即用:对超参数不敏感,无需复杂调参即可获得良好基线性能

工作原理

随机森林的训练与预测流程分为三个阶段。

  • Bootstrap 采样:从原始训练集中有放回地随机抽取 N 个样本,生成 T 个子数据集(约 63.2% 的样本会被选中,其余构成 OOB 样本)
  • 随机特征分裂:在每个节点分裂时,从全部 M 个特征中随机选取 m 个(通常分类取 √M,回归取 M/3),仅在这 m 个特征中寻找最优分裂
  • 充分生长:每棵决策树不做剪枝,允许完全生长以保留高方差-低偏差特性
  • 聚合输出:分类取 T 棵树的多数投票结果,回归取 T 棵树预测值的算术平均
  • OOB 评估:利用未参与该树训练的 OOB 样本估算泛化误差,无需额外划分验证集

特征重要性

随机森林天然支持特征重要性排名,是变量筛选与可解释性分析的利器。

  • Gini 重要性:统计某特征在所有树中各节点分裂时带来的 Gini 不纯度下降之和,下降越大表示特征越重要
  • OOB 排列重要性:随机打乱某特征的 OOB 样本值,观察 OOB 误差的增量,增量越大说明该特征越关键
  • 一致性问题:Gini 重要性对高基数(取值多)的特征存在偏倚,推荐搭配 OOB 排列重要性互相验证
  • 应用价值:在生物信息学、金融风控等高维场景中,常先用随机森林做特征筛选,再送入深度模型

应用场景

随机森林在工业界和学术界均有广泛应用,尤其擅长处理结构化数据。

  • 医疗健康:疾病诊断、基因组学特征筛选、患者分层
  • 金融风控:信用评分、欺诈检测、客户流失预测
  • 自然语言处理:文本分类、情感分析的传统基线模型
  • 遥感与天文:卫星图像分类、星系红移估计
  • 推荐系统:用户行为特征的重要性分析与候选集粗排

局限与误区

随机森林并非万能,在以下场景存在明显短板。

  • 模型体积大:T 棵完整决策树的存储与推理开销随 T 线性增长,不适合内存受限或低延迟场景
  • 对稀疏高维数据表现一般:在极高维稀疏特征(如 TF-IDF)上,线性模型往往更高效
  • 可解释性有限:单棵树可视化,但整体森林仍是「黑箱」,难以给出直观的决策路径
  • 误区:树越多越会过拟合:实际上树数量增加会降低方差、趋于稳定,不会因此过拟合;真正的过拟合风险来自噪声数据或树深度过大
  • 类别不平衡敏感:在极度不平衡数据集上,需配合过采样(SMOTE)或类权重调整使用

发展脉络

随机森林是多项研究成果的集大成者,经历了数十年的演进。

  • 1984 年:Breiman 等人提出 CART(分类与回归树),奠定决策树基础
  • 1994 年:Tin Kam Ho 提出随机子空间方法(Random Subspace Method),引入特征随机化
  • 1996 年:Breiman 正式提出 Bagging(Bootstrap Aggregating)思想
  • 2001 年:Breiman 将 Bagging 与随机子空间结合,发表论文 「Random Forests」,成为里程碑式工作
  • 2006 年后:随机森林成为 Kaggle 竞赛和工业界结构化数据的标准基线
  • 2010 年代:XGBoost、LightGBM 等梯度提升框架在精度上逐渐超越随机森林,但 RF 的简单性与并行性仍使其广泛使用
  • 当前:在可解释 AI 和联邦学习场景中,随机森林因其结构透明性重新获得关注

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「随机森林就是让一群决策树投票,多数票赢,所以比单棵树准多了」
  • 「随机森林里的『随机』有两层含义:数据随机抽,特征也随机挑,这样树和树之间才不会长得太像」
  • 「有人以为树越多越容易过拟合,其实随机森林树多了反而更稳,但训练和推理的时间也会等比例增加」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 1 篇文章,帮助深入理解该术语。

  1. 1

    随机森林:Bagging 与特征重要性

    从 Bagging 到特征重要性,理解随机森林的强大之处

外部参考

维基百科:查看「Random Forest」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。