预训练（Pre-training）

让模型读完全网

亦作、亦称：Pre-training

预训练（Pre-training）是指在海量无标注文本语料上，通过自监督学习目标让神经网络习得通用语言知识，形成可被下游任务复用的「基座模型」。2018 年 GPT-1 与 BERT 的相继发布确立了「预训练 + 微调」两阶段范式，从根本上改变了自然语言处理的研究与工程路径。

概述

预训练（Pre-training）是指在海量无标注文本语料上，通过自监督学习目标让神经网络习得通用语言知识，形成可被下游任务复用的「基座模型」。2018 年 GPT-1 与 BERT 的相继发布确立了「预训练 + 微调」两阶段范式，从根本上改变了自然语言处理的研究与工程路径。

核心定义

预训练的本质是一种迁移学习策略：先在大规模通用数据上让模型学会「语言本身」，再针对特定任务进行适配。

自监督学习：标注信号来自数据本身，无需人工打标；下一词预测只需把下一个词当答案即可构造训练目标
两类主流目标：自回归语言建模（CLM，从左到右逐词预测，GPT 系列采用）与掩码语言建模（MLM，随机遮掩约 15% 词元后预测原词，BERT 系列采用）
基座模型（Foundation Model）：预训练完成后的模型本身不直接可用，需经 SFT、RLHF 等对齐步骤才能部署为助手
规模决定上限：训练数据量与参数量共同决定模型的知识丰富度，规模律（Scaling Law）描述了二者与损失的幂律关系

发展脉络

预训练思想早于 Transformer 存在，但 2017 年后进入加速阶段。

2013：Word2Vec（Google/Mikolov）证明无监督词向量预训练可迁移到下游任务，首次确立预训练价值
2017：Google 发表 Transformer 论文《Attention Is All You Need》，提供可大规模扩展的预训练骨架
2018 年初：AllenNLP 发布 ELMo，基于双向 LSTM 的上下文词向量，是 Transformer 时代前的重要过渡
2018 年 6 月：OpenAI 发布 GPT-1，首次将单向 Transformer 与大规模生成式预训练结合，确立自回归路线
2018 年 10 月：Google 发布 BERT，引入双向掩码预训练，多项基准大幅领先，确立双向路线
2020：GPT-3（1750 亿参数）展示「少样本」涌现能力，开启大模型时代
2022：DeepMind 的 Chinchilla 研究纠正「参数越多越好」的误区，揭示数据量与参数量需均衡分配
2023-2025：LLaMA、Qwen、DeepSeek 等开源基座普及，持续预训练生态迅速繁荣

两类主流预训练目标

不同目标塑造了模型截然不同的能力特征，影响后续所有下游任务的天花板。

自回归（CLM）：给定前 n 个词元预测第 n+1 个；保持因果遮掩，天然适合文本生成；GPT、LLaMA 采用
掩码语言模型（MLM）：随机遮掩输入片段后恢复原词；可利用双向上下文，擅长语义理解；BERT、RoBERTa 采用
Span 预测：遮掩连续文本片段而非单词，T5 与 SpanBERT 的变体，兼顾生成与理解
对比学习：通过正负样本对比使语义相似文本表示靠近，SimCSE 等句向量模型常用此目标
两类目标并非对立，UniLM 等模型将 CLM 与 MLM 混合使用以兼顾生成与理解

算力成本与行业壁垒

预训练是 AI 产业链中门槛最高的环节，形成了显著的规模壁垒。

数量级消耗：GPT-3（1750 亿参数）训练估计消耗约 3640 PetaFLOP/s·day，折算成本超数百万美元
数据规模：主流基座使用数万亿词元（Token）训练，覆盖网页、书籍、代码、学术论文等多源语料
并行策略：数据并行 + 流水线并行 + 张量并行组合，以跨越单张 GPU/TPU 的显存上限
集中化效应：高昂成本使全量预训练基本只由大型机构完成，中小团队通常复用开源权重
开源缓解：LLaMA、Mistral、Qwen、DeepSeek 等开源基座降低了复用门槛，社区可在其上做「持续预训练」

下游复用方式

预训练模型本身是通用知识库，进入生产前需经过针对性适配。

全量微调（Full Fine-tuning）：更新所有参数，效果最优但成本高，适合资源充裕场景
参数高效微调（PEFT）：仅训练少量新增参数（如 LoRA、Adapter），保留预训练知识同时大幅降低计算量
指令微调（SFT）：用人工标注的指令-回答对让基座学会「理解并执行指令」，是对话助手的必要步骤
检索增强生成（RAG）：不改变模型权重，通过引入外部知识库弥补训练截止日期的局限
提示工程（Prompt Engineering）：在不改变权重的前提下，通过精心设计输入激发预训练知识，零成本适配

局限与常见误区

预训练并非万能，存在若干固有局限与认知误区值得澄清。

知识截止日期：预训练数据有时间边界，模型无法自动感知训练截止后的新事件，是幻觉的重要来源之一
误区：参数越多越好：Chinchilla（2022）证明在固定算力预算下，均衡扩大数据量与参数量优于单纯堆参数
误区：预训练完就能用：裸基座模型通常无法遵循指令，需经 SFT 和 RLHF 才能成为实用对话助手
数据偏见继承：互联网语料中的性别、种族等偏见会被模型吸收，预训练阶段难以彻底清除
碳排放问题：超大规模预训练的能耗与碳足迹促使研究界转向更高效的训练配方与「小而精」路线

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「让模型读完全网」
「先读书再考试」
「刷完全网语料」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

🎯 考点练习

含该术语的高频面试题，含标准答案与追问。

浏览全部面试题 →

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「预训练」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。