标准回答
分裂方式
决策树自顶向下递归分裂:在每个节点遍历所有特征与候选切分点,选择让分裂后子节点「纯度最高」的那个,直到满足停止条件(节点纯、达到最大深度或样本太少)。这是贪心策略,不保证全局最优。
信息增益 vs 基尼系数
- 熵衡量不确定性,信息增益 = 父节点熵 − 各子节点熵的加权和,增益越大分裂越好(ID3)。但信息增益偏向取值多的特征,C4.5 改用信息增益率修正。
- 基尼系数衡量从节点随机抽两个样本类别不一致的概率,越小越纯(CART 用它)。
二者都度量不纯度、趋势一致,实践效果差别很小;基尼无对数计算、略快,信息增益的理论解释更直观。
过拟合控制
不加限制的树会一直分到叶子全纯,严重过拟合。常用预剪枝(max_depth、min_samples_leaf)和后剪枝(代价复杂度剪枝),或干脆用随机森林/GBDT 等集成方法。
常见误区
⚠️ 常见踩坑
别把信息增益和基尼系数说成「完全不同的目标」——都是不纯度度量、结论高度一致;也别忘了信息增益偏好高基数特征这一缺陷。
追问
追问 1:决策树为什么容易过拟合?怎么缓解?
因为它能不断分裂直到完美拟合训练集,把噪声也学进去。缓解:预剪枝(限制最大深度、叶子最小样本数、最小分裂增益),后剪枝(用验证集回剪),或集成成随机森林、GBDT。
追问 2:信息增益为什么偏向取值多的特征?
取值越多的特征能把数据切得越碎,子节点越纯、熵越低,即便该特征无实际意义也会获得高增益(极端如 ID 列)。C4.5 用信息增益率(除以特征自身的分裂熵)来惩罚这种偏好。
追问 3:决策树能处理连续特征和缺失值吗?
连续特征通过对取值排序、枚举相邻中点作为二分阈值来处理。缺失值方面,CART 用代理分裂,C4.5 按比例把样本分到各分支并加权计算增益。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。