类别特征如何编码？One-Hot、Target、Embedding 怎么选？

Question 1

Accepted Answer

One-Hot 编码 每个类别变成一个 0/1 列，无序、不引入虚假大小关系。适合低基数（如性别、星期）。缺点是高基数下维度爆炸、矩阵稀疏，对树模型不友好。 Target（Mean）编码 用该类别下目标变量的均值替代类别，把高基数压成一列，信息量大。核心风险是目标泄漏——直接用全量统计会把标签信息泄给特征导致过拟合。必须用 K 折交叉/留一或加平滑（向全局均值收缩，低频类别更依赖先验），并只用训练集统计。适合高基数特征（如用户 ID、城市）。 Embedding 编码 在深度模型中为每个类别学习一个低维稠密向量，训练中端到端优化，能捕捉类别间语义相似性，是高基数类别在神经网络中的主流方案。 选择经验 低基数无序 → One-Hot；高基数 + 树模型 → Target 编码（防泄漏）；高基数 + 深度模型 → Embedding；有序类别 → Ordinal。CatBoost 等模型内置有序目标编码可直接用。

Question 2

Target 编码如何防止过拟合和泄漏？

Accepted Answer

三招：1）只用训练集、且对每个样本用「折外/留一」均值（不含该样本自身标签）；2）加平滑，把类别均值向全局均值收缩，公式 (n·类别均值+m·全局均值)/(n+m)，低频类别更靠先验；3）可加噪声。验证/测试集用训练集统计量映射。

Question 3

为什么不能对无序类别直接用 Label Encoding 喂给线性模型？

Accepted Answer

Label/Ordinal 编码把类别映射成整数 0,1,2…，会引入虚假的大小和等距关系，线性模型、KNN、SVM 会误以为类别间存在数值序关系。无序类别对这类模型应用 One-Hot；树模型对整数编码相对不敏感，可接受。

类别特征如何编码？One-Hot、Target、Embedding 怎么选？

核心要点

标准回答

常见误区

追问

延伸学习