LLM(大语言模型)

「就是 ChatGPT」

亦作、亦称:大语言模型 · Large Language Model · 语言大模型

基于 Transformer 的自回归语言模型,通过海量文本预训练获得通用语言能力,可经 SFT/RLHF 对齐后用于对话与任务执行。 大语言模型是当代 AI 应用的基础设施层:同一套参数既可对话,也可通过 RAG、工具调用与微调适配垂直场景。

工作原理

LLM 通常采用 Decoder-only Transformer,以「预测下一个 token」为预训练目标,在海量文本上学习语言结构与世界知识。推理阶段以自回归方式逐 token 生成;上下文通过 Self-Attention 建模,KV Cache 用于加速长序列生成。对齐阶段常用 SFT 教会指令遵循,再用 RLHF/DPO 优化人类偏好。

应用场景

消费级对话(ChatGPT、Claude)、企业知识库问答、代码补全(Copilot)、Agent 规划与工具调用、批量内容生产、教育辅导等。闭源 API 适合快速验证;开源权重(Qwen、LLaMA、DeepSeek)适合私有化与微调。

局限与误区

「LLM = ChatGPT」忽略了开源与垂直模型;「越大越好」忽略了延迟、成本与任务匹配。幻觉、知识截止、数学与逻辑错误仍常见;长上下文不等于能利用全部信息。生产环境需配合 RAG、护栏、评测与人工审核。

发展脉络

2017 Transformer 奠定架构基础;2018 BERT/GPT-1 展示预训练威力;2020 GPT-3 显现 in-context learning;2022 ChatGPT 引爆应用层;2023 起开源生态与 Agent 爆发;2024–2025 推理模型(o1/R1)与多模态、MoE 架构持续演进。

人们怎么说

日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。

  • 「就是 ChatGPT」
  • 「会聊天的 AI」
  • 「文心一言、通义千问都算」

参见

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    大语言模型训练全流程

    从数据采集到预训练、指令微调到人类反馈强化学习的完整管线

  2. 2

    LLM 大语言模型学习导览

    全面掌握大语言模型的核心知识:从 Transformer 架构、预训练流程,到 SFT、RLHF 微调和推理部署。这是从 Prompt Engineering 到 AI Agent 的关键桥梁。

  3. 3

    NLP 基础:从词嵌入到 Transformer

    自然语言处理的核心技术路线。从 One-Hot 到 Word2Vec,从 RNN/LSTM 到注意力机制,再到 Transformer 架构的完整演进历程。包含词向量可视化、注意力权重计算和简易 Transformer 的 Python 实现。