核心要点

  • 能说明文本如何特征化(TF-IDF、n-gram、词频)

  • 理解决策树在分类任务中的工作流程

  • 知道优缺点:可解释 vs 高维稀疏文本的局限

  • 能对比随机森林、梯度提升与深度模型

简要回答

特征化:原始文本 → 分词 → 去停用词 → TF-IDF/词袋/n-gram 特征矩阵;

典型应用

  • 情感/意图分类(客服工单路由)
  • 垃圾邮件检测
  • 主题粗分类(新闻频道)

决策树如何工作:按特征(如某词 TF-IDF 是否超过阈值)递归分裂,叶节点输出类别

标准回答

特征化:原始文本 → 分词 → 去停用词 → TF-IDF/词袋/n-gram 特征矩阵。

典型应用

  • 情感/意图分类(客服工单路由)
  • 垃圾邮件检测
  • 主题粗分类(新闻频道)

决策树如何工作:按特征(如某词 TF-IDF 是否超过阈值)递归分裂,叶节点输出类别;可用 Gini 或信息增益选分裂点。

优势:训练快、无需 GPU、规则可可视化(「若含 refund 且 rating<3 → 负面」),适合基线与可解释场景。

局限:高维稀疏下单次分裂利用特征少;难捕捉长距离语义与词序;对未见 n-gram 泛化弱。工业界常用 Random Forest / GBDT 集成多棵树,或直接用 BERT 微调。

参考 NLP 文本分类

常见误区

⚠️ 常见踩坑

未提文本必须先向量化;声称决策树能直接「读懂」原始句子;忽略与线性 SVM、朴素贝叶的对比。

追问

追问 1决策树文本分类 vs 朴素贝叶斯怎么选?

朴素贝叶斯假设特征条件独立,在短文本、小数据上极快且稳健;决策树可捕捉非线性特征组合但易过拟合。可先 NB/线性 SVM 做基线,再试 GBDT。

追问 2如何处理类别不平衡?

设 class_weight='balanced' 让稀有类分裂代价更高;对少数类过采样(SMOTE 对稀疏文本要谨慎)或对多数类欠采样;调整决策阈值而非默认 0.5;评估改用 PR-AUC、宏平均 F1 而非 Accuracy(垃圾邮件、欺诈检测都是典型不平衡场景)。

追问 3深度模型一定比决策树好吗?

不一定。小数据、需可解释、算力紧时树模型/线性模型更合适;大数据、复杂语义、多语言场景 BERT 类模型通常更优。可用模型蒸馏把大模型知识压缩到小模型。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。