决策树如何分裂节点？信息增益与基尼系数有何区别？

Question 1

Accepted Answer

分裂方式 决策树自顶向下递归分裂：在每个节点遍历所有特征与候选切分点，选择让分裂后子节点「纯度最高」的那个，直到满足停止条件（节点纯、达到最大深度或样本太少）。这是贪心策略，不保证全局最优。 信息增益 vs 基尼系数 - 熵衡量不确定性，信息增益 = 父节点熵 − 各子节点熵的加权和，增益越大分裂越好（ID3）。但信息增益偏向取值多的特征，C4.5 改用信息增益率修正。 - 基尼系数衡量从节点随机抽两个样本类别不一致的概率，越小越纯（CART 用它）。 二者都度量不纯度、趋势一致，实践效果差别很小；基尼无对数计算、略快，信息增益的理论解释更直观。 过拟合控制 不加限制的树会一直分到叶子全纯，严重过拟合。常用预剪枝（max_depth、min_samples_leaf）和后剪枝（代价复杂度剪枝），或干脆用随机森林/GBDT 等集成方法。

Question 2

决策树为什么容易过拟合？怎么缓解？

Accepted Answer

因为它能不断分裂直到完美拟合训练集，把噪声也学进去。缓解：预剪枝（限制最大深度、叶子最小样本数、最小分裂增益），后剪枝（用验证集回剪），或集成成随机森林、GBDT。

Question 3

信息增益为什么偏向取值多的特征？

Accepted Answer

取值越多的特征能把数据切得越碎，子节点越纯、熵越低，即便该特征无实际意义也会获得高增益（极端如 ID 列）。C4.5 用信息增益率（除以特征自身的分裂熵）来惩罚这种偏好。

Question 4

决策树能处理连续特征和缺失值吗？

Accepted Answer

连续特征通过对取值排序、枚举相邻中点作为二分阈值来处理。缺失值方面，CART 用代理分裂，C4.5 按比例把样本分到各分支并加权计算增益。

决策树如何分裂节点？信息增益与基尼系数有何区别？

核心要点

标准回答

常见误区

追问

延伸学习