LLM(大语言模型)
「就是 ChatGPT」
亦作、亦称:大语言模型 · Large Language Model · 语言大模型
基于 Transformer 的自回归语言模型,通过海量文本预训练获得通用语言能力,可经 SFT/RLHF 对齐后用于对话与任务执行。 大语言模型是当代 AI 应用的基础设施层:同一套参数既可对话,也可通过 RAG、工具调用与微调适配垂直场景。
工作原理
LLM 通常采用 Decoder-only Transformer,以「预测下一个 token」为预训练目标,在海量文本上学习语言结构与世界知识。推理阶段以自回归方式逐 token 生成;上下文通过 Self-Attention 建模,KV Cache 用于加速长序列生成。对齐阶段常用 SFT 教会指令遵循,再用 RLHF/DPO 优化人类偏好。
应用场景
消费级对话(ChatGPT、Claude)、企业知识库问答、代码补全(Copilot)、Agent 规划与工具调用、批量内容生产、教育辅导等。闭源 API 适合快速验证;开源权重(Qwen、LLaMA、DeepSeek)适合私有化与微调。
局限与误区
「LLM = ChatGPT」忽略了开源与垂直模型;「越大越好」忽略了延迟、成本与任务匹配。幻觉、知识截止、数学与逻辑错误仍常见;长上下文不等于能利用全部信息。生产环境需配合 RAG、护栏、评测与人工审核。
发展脉络
2017 Transformer 奠定架构基础;2018 BERT/GPT-1 展示预训练威力;2020 GPT-3 显现 in-context learning;2022 ChatGPT 引爆应用层;2023 起开源生态与 Agent 爆发;2024–2025 推理模型(o1/R1)与多模态、MoE 架构持续演进。
人们怎么说
日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。
- 「就是 ChatGPT」
- 「会聊天的 AI」
- 「文心一言、通义千问都算」
参见
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。