核心要点

  • 说清分裂准则:贪心地选择使子节点纯度提升最大(不纯度下降最多)的特征与切分点。

  • 信息增益 = 父节点熵 − 加权子节点熵;基尼系数衡量随机抽样被误分的概率。

  • 指出 ID3/C4.5 用信息增益(比),CART 用基尼系数,二者结果通常相近。

  • 强调决策树易过拟合,需用预剪枝(限深度/最小样本)或后剪枝控制。

标准回答

分裂方式

决策树自顶向下递归分裂:在每个节点遍历所有特征与候选切分点,选择让分裂后子节点「纯度最高」的那个,直到满足停止条件(节点纯、达到最大深度或样本太少)。这是贪心策略,不保证全局最优。

信息增益 vs 基尼系数

  • 熵衡量不确定性,信息增益 = 父节点熵 − 各子节点熵的加权和,增益越大分裂越好(ID3)。但信息增益偏向取值多的特征,C4.5 改用信息增益率修正。
  • 基尼系数衡量从节点随机抽两个样本类别不一致的概率,越小越纯(CART 用它)。

二者都度量不纯度、趋势一致,实践效果差别很小;基尼无对数计算、略快,信息增益的理论解释更直观。

过拟合控制

不加限制的树会一直分到叶子全纯,严重过拟合。常用预剪枝(max_depth、min_samples_leaf)和后剪枝(代价复杂度剪枝),或干脆用随机森林/GBDT 等集成方法。

常见误区

⚠️ 常见踩坑

别把信息增益和基尼系数说成「完全不同的目标」——都是不纯度度量、结论高度一致;也别忘了信息增益偏好高基数特征这一缺陷。

追问

追问 1决策树为什么容易过拟合?怎么缓解?

因为它能不断分裂直到完美拟合训练集,把噪声也学进去。缓解:预剪枝(限制最大深度、叶子最小样本数、最小分裂增益),后剪枝(用验证集回剪),或集成成随机森林、GBDT。

追问 2信息增益为什么偏向取值多的特征?

取值越多的特征能把数据切得越碎,子节点越纯、熵越低,即便该特征无实际意义也会获得高增益(极端如 ID 列)。C4.5 用信息增益率(除以特征自身的分裂熵)来惩罚这种偏好。

追问 3决策树能处理连续特征和缺失值吗?

连续特征通过对取值排序、枚举相邻中点作为二分阈值来处理。缺失值方面,CART 用代理分裂,C4.5 按比例把样本分到各分支并加权计算增益。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。