什么是词袋模型？有哪些局限？

Q: 什么是词袋模型？有哪些局限？

定义：文档 → 固定词表上的频率/二值向量。步骤：分词 → 建词表 → 统计各词出现次数。 变体 - 原始词频 - 二元词袋（仍忽略部分顺序） - TF-IDF 加权（抑制通用词） 优点：实现简单、与线性模型/NB 配合好、可解释（看权重最高的词）。 核心局限 1. 语序丢失：「不好」vs「好不」相同表示 2. 语义鸿沟：同义词、近义词不相似（需 Embedding） 3. 维度灾难：词表大 → 稀疏、存储与计算贵 4. OOV：未见词零向量 5. 多义词：一词一向量无法消歧 演进路径：BoW → n-gram → Word2Vec → BERT 上下文向量。 教学与基线仍常用 BoW + SVM。详见 NLP 特征工程。

Question 1

什么是词袋模型？有哪些局限？

Accepted Answer

定义：文档 → 固定词表上的频率/二值向量。步骤：分词 → 建词表 → 统计各词出现次数。

变体

原始词频
二元词袋（仍忽略部分顺序）
TF-IDF 加权（抑制通用词）

优点：实现简单、与线性模型/NB 配合好、可解释（看权重最高的词）。

核心局限

语序丢失：「不好」vs「好不」相同表示
语义鸿沟：同义词、近义词不相似（需 Embedding）
维度灾难：词表大 → 稀疏、存储与计算贵
OOV：未见词零向量
多义词：一词一向量无法消歧

演进路径：BoW → n-gram → Word2Vec → BERT 上下文向量。

教学与基线仍常用 BoW + SVM。详见 NLP 特征工程。

Question 2

BoW 和 TF-IDF 有什么区别？

Accepted Answer

BoW 直接用原始词频，常见词（的、is）权重最高却信息量低；TF-IDF 在词频基础上乘以逆文档频率 IDF，压低在大量文档都出现的通用词、抬高区分性强的词。两者维度结构相同，TF-IDF 只是更好的加权方案，通常配线性模型/SVM 效果优于纯词频。

Question 3

词袋维度怎么控制？

Accepted Answer

常用手段：去停用词、设最小/最大文档频率（min_df/max_df）过滤极罕见与极常见词、限制 max_features 取高频 Top-K、用词干/词形归一化合并变体，或用特征哈希（hashing trick）把词映射到固定维度。降维可上 SVD/LSA。目的是抑制稀疏性与过拟合、节省内存。

Question 4

什么时候仍用 BoW？

Accepted Answer

极小数据快速基线、可解释性要求高、边缘设备、关键词匹配型任务（热搜词统计）。复杂语义任务应上预训练模型。

什么是词袋模型？有哪些局限？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习