Language Model(语言模型)
语言模型就是一个能预测『下一个词是什么』的概率打分器,训练得越好,它对自然文本的感觉就越准。
亦作、亦称:语言模型 · LM · Statistical Language Model · 统计语言模型
语言模型是估计文本序列概率分布的核心 AI 技术,从 1948 年 Shannon 的信息论到今天的大语言模型,它始终是自然语言处理的基石。掌握语言模型的原理,是理解 GPT、BERT 等一切现代 NLP 系统的前提。
概述
语言模型(Language Model)是 NLP 领域最基础的概念之一,目标是对自然语言文本序列的概率分布进行建模。
- 核心任务:给定前文 token 序列,预测下一个 token 的条件概率 P(w_t | w_1, ..., w_{t-1})
- 输出形式:概率分布,而非直接文字;文本生成通过在此分布上采样实现
- 评估指标:困惑度(Perplexity,PPL),PPL 越低表示模型对语言规律的把握越好
- 应用范围:机器翻译、语音识别、文本生成、代码补全等几乎所有 NLP 任务均以语言模型为核心
工作原理
语言模型通过学习海量文本,拟合词序列的联合概率分布,并利用链式法则将其分解为逐步的条件概率之积。
- 链式法则:P(w_1, w_2, ..., w_n) = ∏ P(w_t | w_1,...,w_{t-1}),将联合概率转化为可计算的条件概率连乘
- N-gram 近似:传统方法假设当前词只依赖前 N-1 个词,大幅降低计算复杂度,但无法捕获长距依赖
- 神经网络建模:用词嵌入(word embedding)将离散 token 映射为稠密向量,再通过神经网络建模上下文依赖
- Transformer 自注意力:现代语言模型使用自注意力机制(self-attention)全局捕获序列内任意位置的依赖关系
- 训练目标:最大化训练文本的对数似然(即最小化交叉熵损失)
类型与变体
语言模型按建模方式和架构可分为多个主要流派,各有适用场景。
- N-gram 模型:基于统计词频,计算简单,适合资源受限场景;缺点是数据稀疏、无法泛化到未见 N-gram
- 神经语言模型(NNLM):以 Bengio 2003 年工作为代表,使用前馈网络和词向量,突破维度诅咒
- RNN/LSTM 语言模型:循环网络逐步处理序列,能建模更长依赖,但训练慢且存在梯度消失问题
- Transformer 预训练模型:包括编码器型(BERT,双向上下文)和解码器型(GPT,自回归生成)
- 大语言模型(LLM):参数量超百亿的 Transformer 语言模型,经指令微调后具备通用任务理解与生成能力
应用场景
语言模型是现代 AI 语言应用的通用基础,几乎渗透所有文本处理场景。
- 文本生成:对话系统、内容创作、代码补全(如 GitHub Copilot)
- 机器翻译:神经机器翻译系统的解码端本质上是条件语言模型
- 语音识别:语言模型作为声学模型的后验校正,提升转录准确率
- 信息检索与 RAG:结合检索增强生成(RAG),语言模型在知识库问答中发挥核心作用
- 智能代理(Agent):大语言模型作为 Agent 的推理核心,驱动工具调用与多步规划
与大语言模型(LLM)的区别
「语言模型」是广义概念,「大语言模型」是其在规模与能力上的现代演化形态,两者并非对等。
- 范围:语言模型(LM)包含 N-gram、NNLM、BERT、GPT 等所有形态;LLM 特指参数量极大的 Transformer 语言模型
- 规模门槛:业界通常将参数量超过 10B(百亿)的模型称为 LLM,但此界限并不严格
- 涌现能力:LLM 在足够规模下展现出涌现能力(emergent abilities),如零样本推理、代码生成等,小型语言模型则不具备
- 对齐需求:LLM 通常需要经过 RLHF(基于人类反馈的强化学习)对齐,使其更安全、更符合用户意图
局限与常见误区
语言模型在实际应用中存在若干重要局限,使用者需保持清醒认知。
- 幻觉(Hallucination):模型可能生成听起来流畅但事实错误的内容,根源在于其目标是预测概率而非保证事实
- 知识截止:语言模型的知识来自训练数据,存在知识截止日期,无法自动获取最新信息
- 误区:「理解」语言:语言模型是概率预测机器,并不像人类一样「理解」含义,复杂推理仍是研究挑战
- 上下文窗口限制:所有 Transformer 语言模型都有最大上下文长度(context window),超出部分会被截断
- 偏见与安全风险:训练数据中的社会偏见会被模型学习和放大,需要专门的对齐与安全审查
发展脉络
语言模型经历了近八十年的演进,从统计方法走向神经网络,再到当今的大规模预训练范式。
- 1913 年:Andrey Markov 建立马尔可夫链理论,为 N-gram 语言模型奠定数学基础
- 1948 年:Claude Shannon 发表《通信的数学理论》,将语言建模为随机过程,提出信息熵概念
- 1980-1990 年代:N-gram 语言模型广泛应用于语音识别与机器翻译,Kneser-Ney 平滑成为主流
- 2003 年:Bengio 等人发表《A Neural Probabilistic Language Model》,神经语言模型正式登场
- 2013 年:Word2Vec 提出,词嵌入技术成为 NLP 标配
- 2017 年:Google 发表《Attention Is All You Need》,Transformer 架构彻底变革语言建模
- 2018-2020 年:BERT、GPT-2、GPT-3 相继问世,预训练+微调范式确立
- 2022 年至今:ChatGPT、GPT-4、Claude、Gemini 等 LLM 产品化,语言模型进入大众视野
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「语言模型就是一个能预测『下一个词是什么』的概率打分器,训练得越好,它对自然文本的感觉就越准。」
- 「LM 和 LLM 不是一回事——语言模型是个大类,大语言模型只是其中规模超大的现代版本。」
- 「早期语言模型靠数词频,现在靠神经网络学语义,本质目标都是给文本序列算出合理的概率。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
GLM-5.2 深度技术解析:智谱百万上下文旗舰模型的架构创新与工程实践
2026 年 6 月 17 日,智谱发布并开源新一代旗舰大模型 GLM-5.2。该模型以 744B 总参数(40B 激活)的 MoE 架构,实现了稳定可用的 100 万 token 上下文窗口,在 SWE-bench Pro、FrontierSWE 等基准上逼近 Claude Opus 4.8,API 成本仅为 GPT-5.5 的六分之一。本文深度解析 GLM-5.2 的 IndexShare、KVShare、LayerSplit、HiSparse 四大核心架构创新,以及从 128K 到 1M 的工程实现路径。
- 2
AI 推理引擎选型实战:vLLM vs SGLang vs TensorRT-LLM 2026 生产级深度对比
2026 年 LLM 推理引擎市场已形成三足鼎立格局:vLLM 以灵活性称王、SGLang 以 RadixAttention 前缀缓存称霸低延迟场景、TensorRT-LLM 以编译优化统治极限吞吐。本文基于 H100 80GB + Llama 3.3 70B Instruct FP8 基准测试,从架构原理、性能数据、部署复杂度、适用场景四个维度做生产级深度对比,附带完整选型决策树和代码示例。
- 3
智谱 GLM-5.2 深度解析:百万 Token 上下文 + MIT 开源,中国 AI 开源的里程碑
2026 年 6 月 13 日,智谱 AI 发布 GLM-5.2——744B MoE 架构、100 万 Token 上下文、MIT 协议开源。在 Anthropic Fable 5 因出口管制被禁的同一天发布,GLM-5.2 迅速成为全球开发者关注的焦点。本文系统解析 GLM-5.2 的技术架构、训练创新、代码能力评测、开源生态影响,以及它在全球 AI 竞争格局中的战略意义。
外部参考
维基百科:查看「Language Model」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。