LLM（大语言模型）

就是 ChatGPT

亦作、亦称：大语言模型 · Large Language Model · 语言大模型

大语言模型（LLM）是以 Transformer 为基础架构、在海量文本上预训练而成的神经网络，通过学习语言的统计规律获得通用的理解与生成能力。它是当前自然语言处理和 AI 助手领域最核心的技术基础，直接驱动了 ChatGPT、Claude、Gemini 等主流对话系统的兴起。

概述

LLM 的核心思想是「先在大量无标注文本上做自监督预训练，再针对具体任务微调或对齐」。

规模是关键：参数量通常在数十亿到数万亿之间，训练数据涵盖网页、书籍、代码等多种来源。
自回归生成：大多数 LLM 逐 token 预测下一个词，输出由概率分布采样产生。
能力涌现：语言理解、推理、代码生成等能力并非显式编程，而是从预训练过程中自然涌现。
获取方式：闭源 API（如 GPT-4、Claude）和开源权重（如 LLaMA、Mistral）是两种主流路径。

工作原理

LLM 的训练和推理分为两个主要阶段。

预训练：在万亿级 token 语料上以「预测下一个 token」为目标进行自监督学习，使模型习得语法、常识和世界知识。
对齐微调：通过 SFT（监督微调）让模型遵循指令，再用 RLHF（人类反馈强化学习）或 DPO 等方法使输出更符合人类偏好。
Transformer 架构：利用多头注意力机制在整个上下文窗口内建立 token 间的依赖关系，避免了 RNN 的长程遗忘问题。
推理阶段：输入 prompt 后，模型利用 KV Cache 加速自回归解码，逐 token 输出直到生成终止符。
涌现能力：当参数量超过某个阈值，模型会出现小模型不具备的新能力（如思维链推理），即涌现现象。

类型与变体

根据架构、规模和开放程度，LLM 可分为多个类别。

纯解码器（Decoder-only）：GPT 系列、LLaMA、Mistral 等主流对话模型采用此结构，适合生成任务。
编码器-解码器（Encoder-Decoder）：T5、FLAN-T5 等，适合翻译、摘要等序列到序列任务。
闭源商业模型：GPT-4o、Claude 3.5、Gemini 1.5 等，通过 API 提供服务，权重不公开。
开源/开放权重模型：LLaMA 3、Mistral、Qwen、DeepSeek 等，可本地部署或二次微调。
推理专用模型：o1、DeepSeek-R1 等通过测试时扩展计算（Test-Time Compute）强化慢思考推理能力。
多模态 LLM：GPT-4V、LLaVA、Qwen-VL 等扩展了视觉、音频等模态输入，严格来说已超出纯「语言」模型范畴。

应用场景

LLM 已渗透到软件开发、内容创作、知识检索等众多领域。

对话助手：ChatGPT、Claude、Copilot 等产品直接面向终端用户提供问答和写作辅助。
代码生成：GitHub Copilot、Cursor 等工具利用 LLM 完成代码补全、调试和解释。
RAG 问答：结合向量数据库检索外部知识，弥补 LLM 知识截止和幻觉问题。
智能体（Agent）：LLM 充当规划和决策核心，通过工具调用（Function Calling）执行搜索、代码运行、文件操作等动作。
企业 NLP：文本分类、情感分析、合同审查、客服自动化等场景替代传统 NLP 流水线。

局限与误区

LLM 存在若干系统性局限，需要开发者和用户知悉。

幻觉（Hallucination）：模型会以高置信度生成错误事实，难以从输出本身判断真伪，是当前最大痛点之一。
知识截止：预训练数据有时间边界，模型不了解训练截止日期后的事件，需通过 RAG 或工具调用补充。
上下文窗口限制：尽管长上下文模型已达百万 token，处理超长文档时仍面临注意力稀释和成本激增问题。
推理成本高：大规模 LLM 的推理需要高端 GPU，API 调用按 token 计费，大批量场景成本可观。
「就是 ChatGPT」的误区：LLM 是一类模型，ChatGPT 是基于 GPT 系列的具体产品；把 LLM 等同于某一产品会遮蔽技术本质。

发展脉络

LLM 的崛起经历了从架构创新到规模跃迁再到对齐工程的三个阶段。

2017：Google 提出 Transformer 架构（「Attention Is All You Need」），奠定现代 LLM 的基础。
2018：OpenAI 发布 GPT-1（1.17 亿参数）；Google 发布 BERT，两者分别代表解码器和编码器路线。
2020：OpenAI 发布 GPT-3（1750 亿参数），展示少样本学习（Few-shot）的惊人能力，引发行业关注。
2022：OpenAI 发布 InstructGPT 验证 RLHF 对齐路线；ChatGPT 于 11 月上线，两个月内用户破亿，LLM 进入大众视野。
2023：Meta 发布 LLaMA 系列开源模型，掀起开源生态浪潮；Google 发布 Gemini，微软全面押注 GPT-4。
2024：混合专家（MoE） 架构（Mixtral、GPT-4）、长上下文（Gemini 1.5 支持 100 万 token）、推理模型（o1）成为新热点。
2025 至今：测试时扩展计算（DeepSeek-R1、o3）成为提升推理能力的主流方向，多模态与 Agent 能力持续融合。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是 ChatGPT」
「会聊天的 AI」
「文心一言、通义千问都算」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「LLM」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

LLM（大语言模型）

概述

工作原理

类型与变体

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

大语言模型训练全流程

LLM 大语言模型学习导览

NLP 基础：从词嵌入到 Transformer

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

概述

工作原理

类型与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

大语言模型训练全流程

LLM 大语言模型学习导览

NLP 基础：从词嵌入到 Transformer

外部参考