Language Model（语言模型）

语言模型就是一个能预测『下一个词是什么』的概率打分器，训练得越好，它对自然文本的感觉就越准。

亦作、亦称：语言模型 · LM · Statistical Language Model · 统计语言模型

语言模型是估计文本序列概率分布的核心 AI 技术，从 1948 年 Shannon 的信息论到今天的大语言模型，它始终是自然语言处理的基石。掌握语言模型的原理，是理解 GPT、BERT 等一切现代 NLP 系统的前提。

概述

语言模型（Language Model）是 NLP 领域最基础的概念之一，目标是对自然语言文本序列的概率分布进行建模。

核心任务：给定前文 token 序列，预测下一个 token 的条件概率 P(w_t | w_1, ..., w_{t-1})
输出形式：概率分布，而非直接文字；文本生成通过在此分布上采样实现
评估指标：困惑度（Perplexity，PPL），PPL 越低表示模型对语言规律的把握越好
应用范围：机器翻译、语音识别、文本生成、代码补全等几乎所有 NLP 任务均以语言模型为核心

工作原理

语言模型通过学习海量文本，拟合词序列的联合概率分布，并利用链式法则将其分解为逐步的条件概率之积。

链式法则：P(w_1, w_2, ..., w_n) = ∏ P(w_t | w_1,...,w_{t-1})，将联合概率转化为可计算的条件概率连乘
N-gram 近似：传统方法假设当前词只依赖前 N-1 个词，大幅降低计算复杂度，但无法捕获长距依赖
神经网络建模：用词嵌入（word embedding）将离散 token 映射为稠密向量，再通过神经网络建模上下文依赖
Transformer 自注意力：现代语言模型使用自注意力机制（self-attention）全局捕获序列内任意位置的依赖关系
训练目标：最大化训练文本的对数似然（即最小化交叉熵损失）

类型与变体

语言模型按建模方式和架构可分为多个主要流派，各有适用场景。

N-gram 模型：基于统计词频，计算简单，适合资源受限场景；缺点是数据稀疏、无法泛化到未见 N-gram
神经语言模型（NNLM）：以 Bengio 2003 年工作为代表，使用前馈网络和词向量，突破维度诅咒
RNN/LSTM 语言模型：循环网络逐步处理序列，能建模更长依赖，但训练慢且存在梯度消失问题
Transformer 预训练模型：包括编码器型（BERT，双向上下文）和解码器型（GPT，自回归生成）
大语言模型（LLM）：参数量超百亿的 Transformer 语言模型，经指令微调后具备通用任务理解与生成能力

应用场景

语言模型是现代 AI 语言应用的通用基础，几乎渗透所有文本处理场景。

文本生成：对话系统、内容创作、代码补全（如 GitHub Copilot）
机器翻译：神经机器翻译系统的解码端本质上是条件语言模型
语音识别：语言模型作为声学模型的后验校正，提升转录准确率
信息检索与 RAG：结合检索增强生成（RAG），语言模型在知识库问答中发挥核心作用
智能代理（Agent）：大语言模型作为 Agent 的推理核心，驱动工具调用与多步规划

与大语言模型（LLM）的区别

「语言模型」是广义概念，「大语言模型」是其在规模与能力上的现代演化形态，两者并非对等。

范围：语言模型（LM）包含 N-gram、NNLM、BERT、GPT 等所有形态；LLM 特指参数量极大的 Transformer 语言模型
规模门槛：业界通常将参数量超过 10B（百亿）的模型称为 LLM，但此界限并不严格
涌现能力：LLM 在足够规模下展现出涌现能力（emergent abilities），如零样本推理、代码生成等，小型语言模型则不具备
对齐需求：LLM 通常需要经过 RLHF（基于人类反馈的强化学习）对齐，使其更安全、更符合用户意图

局限与常见误区

语言模型在实际应用中存在若干重要局限，使用者需保持清醒认知。

幻觉（Hallucination）：模型可能生成听起来流畅但事实错误的内容，根源在于其目标是预测概率而非保证事实
知识截止：语言模型的知识来自训练数据，存在知识截止日期，无法自动获取最新信息
误区：「理解」语言：语言模型是概率预测机器，并不像人类一样「理解」含义，复杂推理仍是研究挑战
上下文窗口限制：所有 Transformer 语言模型都有最大上下文长度（context window），超出部分会被截断
偏见与安全风险：训练数据中的社会偏见会被模型学习和放大，需要专门的对齐与安全审查

发展脉络

语言模型经历了近八十年的演进，从统计方法走向神经网络，再到当今的大规模预训练范式。

1913 年：Andrey Markov 建立马尔可夫链理论，为 N-gram 语言模型奠定数学基础
1948 年：Claude Shannon 发表《通信的数学理论》，将语言建模为随机过程，提出信息熵概念
1980-1990 年代：N-gram 语言模型广泛应用于语音识别与机器翻译，Kneser-Ney 平滑成为主流
2003 年：Bengio 等人发表《A Neural Probabilistic Language Model》，神经语言模型正式登场
2013 年：Word2Vec 提出，词嵌入技术成为 NLP 标配
2017 年：Google 发表《Attention Is All You Need》，Transformer 架构彻底变革语言建模
2018-2020 年：BERT、GPT-2、GPT-3 相继问世，预训练+微调范式确立
2022 年至今：ChatGPT、GPT-4、Claude、Gemini 等 LLM 产品化，语言模型进入大众视野

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「语言模型就是一个能预测『下一个词是什么』的概率打分器，训练得越好，它对自然文本的感觉就越准。」
「LM 和 LLM 不是一回事——语言模型是个大类，大语言模型只是其中规模超大的现代版本。」
「早期语言模型靠数词频，现在靠神经网络学语义，本质目标都是给文本序列算出合理的概率。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Language Model」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。