大模型中的 Tokenizer 是什么？BPE 如何工作？

Question 1

Accepted Answer

为什么需要子词 纯词级词表大、未登录词（OOV）多；纯字符级又会让序列过长、建模困难。子词（subword）在两者间折中：常见词整体成 token，罕见词拆成片段拼出，既控制词表规模又避免 OOV。 BPE 合并流程 1. 初始化为字符级词表； 2. 统计语料中相邻符号对的出现频率； 3. 把最高频的相邻对合并成一个新符号，加入词表； 4. 重复合并，直到词表达到目标大小。 实践要点 GPT 系列用 BPE（byte-level BPE 直接在字节上操作，天然无 OOV）；SentencePiece 在原始字符流上学习、把空格也编码，便于多语言统一词表。Tokenizer 与模型权重绑定，换模型必须换对应 tokenizer。中文常被切成较多 token，影响计费与上下文占用。

Question 2

SentencePiece 和 BPE 区别？

Accepted Answer

BPE 多在预分词后的子词上合并；SentencePiece 直接在原始字符流上学习，无需语言特定预分词，中日韩更友好，且把空格也编进词表。LLaMA、T5 常用 SentencePiece。

Question 3

为什么 tokenizer 不能随意更换？

Accepted Answer

词表与切分规则变了，同一字符串 token id 不同，预训练权重与词嵌入不对齐，等于破坏输入层。换 tokenizer 需重新训练或做 embedding 映射与继续预训练。

大模型中的 Tokenizer 是什么？BPE 如何工作？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习