核心要点
定义语料库及其在训练/评测中的角色
区分中英文分词与 subword tokenization
解释停用词列表的利弊
说明预处理对下游任务的影响
标准回答
Corpus(语料库)
- 结构化文本集合:维基百科、Common Crawl、领域专利库
- 用途:训练 语言模型、统计 n-gram、评测基准(GLUE)
- 注意版权、偏见、时效性与 数据清洗
Tokenization(分词/词元化)
- 将字符流切为模型可处理单元
- 英文:空格+标点规则;中文:jieba、统计分词
- 现代 LLM:BPE/SentencePiece subword,平衡 OOV 与词表大小
- 影响上下文长度、API 计费与多语言表现
Stopwords(停用词)
- 高频低信息词:the, is, 的, 了
- 去除可降维、加速传统 ML;但 情感/否定 场景可能误删「not」「不」
- 现代深度学习常 不去停用词,让模型自学权重
管道示例:原始文本 → 清洗 → tokenize →(可选)去停用 → lemmatize → 特征化/模型。
详见 NLP 预处理 与 Tokenization 术语。
常见误区
⚠️ 常见踩坑
认为停用词必须删除;混淆分词与词形还原;不说 subword 与词级分词区别。
追问
追问 1:BPE 和 WordPiece 区别?
题库专题:大模型中的 Tokenizer 是什么?BPE 如何工作?两者都是 subword 分词,从字符起逐步合并子词。区别在合并准则:BPE 贪心合并出现频率最高的相邻对(GPT 系常用);WordPiece 合并能最大化训练语料似然的对,即按概率增益而非纯频率(BERT 用),子词常带 ## 前缀标记词内位置。效果接近,核心都是平衡 OOV 与词表大小。
题库延伸:与本追问相关的专题题 → 大模型中的 Tokenizer 是什么?BPE 如何工作?
追问 2:停用词列表如何定制?
从通用表(NLTK、jieba 自带)出发,按任务增删:按文档频率统计语料里的超高频词加入,把领域无信息词(如论坛里的「楼主」「顶」)补进去;同时务必保留对任务有意义的词——情感任务保留「not/不」,问答保留疑问词。改完用下游指标验证,别凭直觉删。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择