简要回答
特征化:原始文本 → 分词 → 去停用词 → TF-IDF/词袋/n-gram 特征矩阵;
典型应用
- 情感/意图分类(客服工单路由)
- 垃圾邮件检测
- 主题粗分类(新闻频道)
决策树如何工作:按特征(如某词 TF-IDF 是否超过阈值)递归分裂,叶节点输出类别
标准回答
特征化:原始文本 → 分词 → 去停用词 → TF-IDF/词袋/n-gram 特征矩阵。
典型应用
- 情感/意图分类(客服工单路由)
- 垃圾邮件检测
- 主题粗分类(新闻频道)
决策树如何工作:按特征(如某词 TF-IDF 是否超过阈值)递归分裂,叶节点输出类别;可用 Gini 或信息增益选分裂点。
优势:训练快、无需 GPU、规则可可视化(「若含 refund 且 rating<3 → 负面」),适合基线与可解释场景。
局限:高维稀疏下单次分裂利用特征少;难捕捉长距离语义与词序;对未见 n-gram 泛化弱。工业界常用 Random Forest / GBDT 集成多棵树,或直接用 BERT 微调。
参考 NLP 文本分类。
追问
追问 2:如何处理类别不平衡?
追问 3:深度模型一定比决策树好吗?
不一定。小数据、需可解释、算力紧时树模型/线性模型更合适;大数据、复杂语义、多语言场景 BERT 类模型通常更优。可用模型蒸馏把大模型知识压缩到小模型。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择