核心要点

  • 定义词袋:忽略词序,只统计词频

  • 说明与 TF-IDF 的关系

  • 列举语义丢失、稀疏性、OOV 等局限

  • 能对比 n-gram、Word2Vec、BERT

简要回答

定义:文档 → 固定词表上的频率/二值向量;步骤:分词 → 建词表 → 统计各词出现次数

标准回答

定义:文档 → 固定词表上的频率/二值向量。步骤:分词 → 建词表 → 统计各词出现次数。

变体

  • 原始词频
  • 二元词袋(仍忽略部分顺序)
  • TF-IDF 加权(抑制通用词)

优点:实现简单、与线性模型/NB 配合好、可解释(看权重最高的词)。

核心局限

  1. 语序丢失:「不好」vs「好不」相同表示
  2. 语义鸿沟:同义词、近义词不相似(需 Embedding
  3. 维度灾难:词表大 → 稀疏、存储与计算贵
  4. OOV:未见词零向量
  5. 多义词:一词一向量无法消歧

演进路径:BoW → n-gram → Word2Vec → BERT 上下文向量。

教学与基线仍常用 BoW + SVM。详见 NLP 特征工程

常见误区

⚠️ 常见踩坑

声称 BoW 能捕捉语义;不说词序问题;忽略 TF-IDF 作为改进。

追问

追问 1BoW 和 TF-IDF 有什么区别?

BoW 直接用原始词频,常见词(的、is)权重最高却信息量低;TF-IDF 在词频基础上乘以逆文档频率 IDF,压低在大量文档都出现的通用词、抬高区分性强的词。两者维度结构相同,TF-IDF 只是更好的加权方案,通常配线性模型/SVM 效果优于纯词频。

追问 2词袋维度怎么控制?

常用手段:去停用词、设最小/最大文档频率(min_df/max_df)过滤极罕见与极常见词、限制 max_features 取高频 Top-K、用词干/词形归一化合并变体,或用特征哈希(hashing trick)把词映射到固定维度。降维可上 SVD/LSA。目的是抑制稀疏性与过拟合、节省内存。

追问 3什么时候仍用 BoW?

极小数据快速基线、可解释性要求高、边缘设备、关键词匹配型任务(热搜词统计)。复杂语义任务应上预训练模型。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。