简要回答
定义:文档 → 固定词表上的频率/二值向量;步骤:分词 → 建词表 → 统计各词出现次数
常见误区
⚠️ 常见踩坑
声称 BoW 能捕捉语义;不说词序问题;忽略 TF-IDF 作为改进。
追问
追问 1:BoW 和 TF-IDF 有什么区别?
BoW 直接用原始词频,常见词(的、is)权重最高却信息量低;TF-IDF 在词频基础上乘以逆文档频率 IDF,压低在大量文档都出现的通用词、抬高区分性强的词。两者维度结构相同,TF-IDF 只是更好的加权方案,通常配线性模型/SVM 效果优于纯词频。
追问 2:词袋维度怎么控制?
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择