Token

就是一个字

Token 是大语言模型处理文本的最小单位，由分词器将原始文字切分而成；Token 的数量直接决定 API 调用成本与上下文容量，是使用和评估语言模型绕不开的核心概念。

概述

Token 不等于「一个字」，而是分词器在词与字符之间权衡后切出的片段。

定义：Token 是模型看到的最小语言单元，可以是一个词、一个词的一部分，也可以是一个标点或空格。
计量作用：API 按 Token 计费，上下文窗口也按 Token 限制，理解 Token 是控制成本与容量的前提。
与「字」的区别：中文「人工智能」可能被切为 2–3 个 Token，而非 4 个汉字；英文「tokenization」可能被切为 3–4 个 Token。
词表（Vocabulary）：每个模型都有固定词表，词表大小通常在 3 万–15 万之间，Token ID 是词表中的整数索引。

工作原理

分词器在训练前离线构建，推理时将文本映射为 Token ID 序列再送入模型。

BPE（字节对编码）：最常见算法，从单字符出发，反复合并高频相邻对，直到达到目标词表大小；GPT 系列均使用 BPE 变体 tiktoken。
SentencePiece：与语言无关的分词框架，支持 BPE 和 Unigram 两种模式，LLaMA、Gemma 等开源模型广泛采用。
WordPiece：在 BPE 基础上改用最大似然准则合并，是 BERT 的分词方案。
编解码对称：Tokenize（文本→Token ID）与 Detokenize（Token ID→文本）互为逆操作，模型输出的 logits 也对应词表维度。
特殊 Token：如 <|endoftext|>、[CLS]、[SEP] 等，用于标记序列边界或任务类型，不对应自然语言文字。

类型与变体

主流分词策略可按粒度和算法分为三类。

词级（Word-level）：以完整单词为 Token，词表大、OOV 问题严重，现代大模型已基本淘汰。
子词级（Subword）：BPE、WordPiece、Unigram 均属此类，兼顾词表大小与覆盖率，是当前主流。
字符级（Character-level）：以单个字符为 Token，词表极小但序列极长，适合特定场景如拼写纠错。
字节级 BPE（Byte-level BPE）：以原始字节为基本单元，可无损表示任意 Unicode 文本，GPT-2/3/4 采用此方案，词表通常为 50k–100k。

应用场景

Token 的数量和边界影响模型的每一个使用环节。

成本估算：调用 OpenAI、Anthropic 等 API 前，用官方 tokenizer 预估输入+输出 Token 数，是控制费用的关键步骤。
上下文规划：将文档分块（chunking）时，需按实际 Token 数切割而非字数，避免超出模型的上下文窗口（如 128k、200k Token）。
Prompt 优化：精简 Prompt 中的冗余词汇可减少 Token 消耗，同时影响模型理解质量，需权衡。
多语言差异：英文约 1 Token/4 字符，中文约 1 Token/1.5–2 字符，日韩文更密；跨语言项目需分别测试实际比例。
流式输出：模型逐 Token 生成并推送，Token 生成速度（tokens/s）是衡量推理系统吞吐量的标准指标。

局限与误区

Token 机制带来了几类常见问题，使用时应有所了解。

误区「1 Token = 1 字」：这是最常见错误；不同语言、不同模型的比例差异显著，必须用实际 tokenizer 测量。
算术与拼写弱点：Token 边界切割数字和单词的方式使模型难以逐位推理，如「9.11」与「9.9」的大小比较容易出错。
跨 Token 边界的歧义：同一字符串在不同上下文可能产生不同 Token 切分，影响模型一致性。
词表外词（OOV）：子词方案理论上可覆盖全部 Unicode，但罕见语言或专业符号仍可能退化为大量单字节 Token，导致序列长度暴增。
Token 限制不等于模型真实理解范围：即使在上下文窗口内，模型对远距离 Token 的注意力权重会衰减，长文理解质量往往低于短文。

发展脉络

Token 化技术随深度学习的演进持续迭代。

1994：BPE（Byte Pair Encoding）由 Philip Gage 提出，最初用于数据压缩领域。
2016：Sennrich 等人将 BPE 引入神经机器翻译，论文《Neural Machine Translation of Rare Words with Subword Units》奠定子词分词主流地位。
2018：BERT 使用 WordPiece 分词，同年 Google 开源 SentencePiece（Kudo & Richardson），提供语言无关的子词分词框架；Token 成为 NLP 工程的通用语言。
2020：GPT-3 采用字节级 BPE（50k 词表），Token 计费模式随 OpenAI API 商业化全面普及。
2023–2024：tiktoken（OpenAI）成为事实标准之一；LLaMA 2/3、Gemma 等模型将词表扩展至 32k–256k，提升多语言与代码覆盖率。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是一个字」
「计费单位」
「不是一个汉字那么简单」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Token」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Token

概述

工作原理

类型与变体

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

LLM Token 经济学：分词原理、成本计算与优化实战

LLM 上下文窗口扩展：RoPE、ALiBi 与长文本建模技术

NLP 基础：从词嵌入到 Transformer

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

概述

工作原理

类型与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

LLM Token 经济学：分词原理、成本计算与优化实战

LLM 上下文窗口扩展：RoPE、ALiBi 与长文本建模技术

NLP 基础：从词嵌入到 Transformer

外部参考