NLP 中语料库、分词与停用词分别指什么？

Question 1

Accepted Answer

Corpus（语料库） - 结构化文本集合：维基百科、Common Crawl、领域专利库 - 用途：训练 语言模型、统计 n-gram、评测基准（GLUE） - 注意版权、偏见、时效性与 数据清洗 Tokenization（分词/词元化） - 将字符流切为模型可处理单元 - 英文：空格+标点规则；中文：jieba、统计分词 - 现代 LLM：BPE/SentencePiece subword，平衡 OOV 与词表大小 - 影响上下文长度、API 计费与多语言表现 Stopwords（停用词） - 高频低信息词：the, is, 的, 了 - 去除可降维、加速传统 ML；但 情感/否定 场景可能误删「not」「不」 - 现代深度学习常 不去停用词，让模型自学权重 管道示例：原始文本 → 清洗 → tokenize →（可选）去停用 → lemmatize → 特征化/模型。 详见 NLP 预处理 与 Tokenization 术语。

Question 2

BPE 和 WordPiece 区别？

Accepted Answer

两者都是 subword 分词，从字符起逐步合并子词。区别在合并准则：BPE 贪心合并出现频率最高的相邻对（GPT 系常用）；WordPiece 合并能最大化训练语料似然的对，即按概率增益而非纯频率（BERT 用），子词常带 ## 前缀标记词内位置。效果接近，核心都是平衡 OOV 与词表大小。

题库延伸：与本追问相关的专题题 → 大模型中的 Tokenizer 是什么？BPE 如何工作？

Question 3

停用词列表如何定制？

Accepted Answer

从通用表（NLTK、jieba 自带）出发，按任务增删：按文档频率统计语料里的超高频词加入，把领域无信息词（如论坛里的「楼主」「顶」）补进去；同时务必保留对任务有意义的词——情感任务保留「not/不」，问答保留疑问词。改完用下游指标验证，别凭直觉删。

Question 4

语料库偏见如何影响模型？

Accepted Answer

性别/种族刻板印象、地域方言覆盖不足会导致生成偏见。需多样性审计、去偏处理、RLHF 对齐，并文档化训练数据来源。

NLP 中语料库、分词与停用词分别指什么？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习