核心要点

  • 定义语料库及其在训练/评测中的角色

  • 区分中英文分词与 subword tokenization

  • 解释停用词列表的利弊

  • 说明预处理对下游任务的影响

简要回答

Corpus(语料库)

Tokenization(分词/词元化)

  • 将字符流切为模型可处理单元
  • 英文:空格+标点规则;中文:jieba、统计分词
  • 现代 LLM:BPE/SentencePiece subword,平衡 OOV 与词表大小
  • 影响上下文长度、API 计费与多语言表现

Stopwords(停用词)

  • 高频低信息词:the, is, 的, 了
  • 去除可降维、加速传统 ML

标准回答

Corpus(语料库)

  • 结构化文本集合:维基百科、Common Crawl、领域专利库
  • 用途:训练 语言模型、统计 n-gram、评测基准(GLUE)
  • 注意版权、偏见、时效性与 数据清洗

Tokenization(分词/词元化)

  • 将字符流切为模型可处理单元
  • 英文:空格+标点规则;中文:jieba、统计分词
  • 现代 LLM:BPE/SentencePiece subword,平衡 OOV 与词表大小
  • 影响上下文长度、API 计费与多语言表现

Stopwords(停用词)

  • 高频低信息词:the, is, 的, 了
  • 去除可降维、加速传统 ML;但 情感/否定 场景可能误删「not」「不」
  • 现代深度学习常 不去停用词,让模型自学权重

管道示例:原始文本 → 清洗 → tokenize →(可选)去停用 → lemmatize → 特征化/模型。

详见 NLP 预处理 与 Tokenization 术语。

常见误区

⚠️ 常见踩坑

认为停用词必须删除;混淆分词与词形还原;不说 subword 与词级分词区别。

追问

追问 1BPE 和 WordPiece 区别?

题库专题:大模型中的 Tokenizer 是什么?BPE 如何工作?

两者都是 subword 分词,从字符起逐步合并子词。区别在合并准则:BPE 贪心合并出现频率最高的相邻对(GPT 系常用);WordPiece 合并能最大化训练语料似然的对,即按概率增益而非纯频率(BERT 用),子词常带 ## 前缀标记词内位置。效果接近,核心都是平衡 OOV 与词表大小。

题库延伸:与本追问相关的专题题 → 大模型中的 Tokenizer 是什么?BPE 如何工作?

追问 2停用词列表如何定制?

从通用表(NLTK、jieba 自带)出发,按任务增删:按文档频率统计语料里的超高频词加入,把领域无信息词(如论坛里的「楼主」「顶」)补进去;同时务必保留对任务有意义的词——情感任务保留「not/不」,问答保留疑问词。改完用下游指标验证,别凭直觉删。

追问 3语料库偏见如何影响模型?

性别/种族刻板印象、地域方言覆盖不足会导致生成偏见。需多样性审计、去偏处理、RLHF 对齐,并文档化训练数据来源。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。