核心要点

  • 理解 RF:多棵决策树 Bagging + 特征子采样

  • 说明对高维稀疏文本的鲁棒性与非线性

  • 对比单棵树、GBDT、深度模型

  • 知道 OOB 评估与特征重要性

简要回答

机制:Bootstrap 采样训练多棵决策树;每次分裂随机考察 $sqrt{d}$ 个特征

标准回答

机制:Bootstrap 采样训练多棵决策树;每次分裂随机考察 $sqrt{d}$ 个特征;分类投票/回归平均。

NLP 场景优势

  1. 降低方差:比单棵树更稳,缓解高维稀疏过拟合
  2. 非线性:捕捉词组合模式,无需手动交叉特征
  3. 特征重要性:Gini/置换重要性 → 关键词洞察
  4. 少调参:对文本基线友好,训练可并行
  5. OOB 误差:内置验证,无需单独 hold-out

与 GBDT 对比:RF 并行、抗过拟合强;GBDT 串行 Boosting,精度常更高但易过拟合需调学习率/深度。

与深度学习:数据少、要可解释、CPU 环境 → RF/GBDT;大数据复杂语义 → BERT

典型管道:TF-IDF (1-2 gram) → RandomForestClassifier。参考 文本分类

常见误区

⚠️ 常见踩坑

不说文本需先向量化;声称 RF 能处理原始字符串;忽略 GBDT 常更强的事实。

追问

追问 1RF 特征重要性可靠吗?

Gini 重要性对高基数特征有偏;置换重要性更稳但计算贵。相关特征会稀释重要性,应结合领域知识解读。

追问 2文本 n-gram 维度极高怎么办?

先降维再喂给随机森林:用 TF-IDF + 卡方/互信息做特征选择,或截断 SVD(LSA)把稀疏高维压到几百维;也可限制 n-gram 阶数与最小词频。随机森林对稀疏超高维不友好(树在大量零特征上分裂效率低),线性模型或 SVM 往往是更强的文本基线。

追问 3RF vs XGBoost 在 NLP 怎么选?

竞赛与精度优先常试 XGBoost/LightGBM;快速可解释基线、并行训练 → RF。两者都输给大模型微调,但成本低几个数量级。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。