自监督学习

不用标注也能学

亦作、亦称：自监督 · Self-supervised Learning

自监督学习是一种让模型直接从数据自身构造监督信号的训练范式，无需人工标注即可学习丰富的语义表示。它是 BERT、GPT、MAE 等大规模预训练模型的核心基础，深刻改变了深度学习的发展路径。

概述

核心概念

自监督学习的核心思想是：从数据本身「挖掘」出标签，让模型在无需人工标注的情况下完成预训练。

无需人工标注：把输入数据的一部分隐藏或变换，让模型预测被隐藏的部分，从而获得监督信号
- 大规模适用：互联网上的文本、图像、音频等均可直接用于训练，打破标注数据的瓶颈
-学习通用表示：预训练得到的特征可迁移到下游任务（分类、检测、问答等），大幅减少微调所需数据量
- 区别于无监督：自监督学习有明确的代理任务（pretext task） 和可计算的损失函数，不同于聚类或密度估计

三大技术范式

自监督学习方法通常归为三类主流范式，分别对应不同的信号来源和学习目标。

掩码生成式（Masked Generative）：随机遮盖输入的一部分，令模型重建被遮盖内容；代表：BERT 的掩码语言建模（MLM）、MAE 的图像 patch 掩码重建
自回归式（Autoregressive）：从左至右逐步预测下一个 token，无需遮盖；代表：GPT 系列的下一词预测（next-token prediction）
对比式（Contrastive）：拉近同一样本不同增强视图的表示、推远不同样本的表示；代表：SimCLR（2020）、MoCo、DINO；核心损失为 InfoNCE

发展脉络

自监督学习的兴起经历了从边缘技术到主流范式的快速演变。

2013：Word2Vec（Mikolov et al., Google）以「预测上下文词」的代理任务学习词向量，是自监督思想的早期实践
2018：GPT-1（OpenAI）与 ELMo（Allen AI）分别探索自回归和双向 LSTM 大规模语言预训练；BERT（Google）正式提出掩码语言建模（MLM）
2019：Yann LeCun 公开推广「自监督学习」术语；对比学习在视觉领域开始崛起（MoCo v1）
2020：SimCLR（Chen et al., Google）大幅简化对比学习流程，视觉自监督 Top-1 精度达 76.5%，首次逼近有监督 ResNet-50
2021：MAE（He et al., Meta）将掩码重建扩展至图像，以 75% 掩码率高效训练大型 ViT，训练速度提升约 3 倍
2022 至今：多模态自监督（DINO v2、LLaVA 系列）与千亿参数 LLM 将该范式推向跨模态与超大规模场景

关键机制

理解自监督学习需掌握若干底层设计要点。

掩码比例选择：MAE 发现 75% 的高掩码率效果优于 BERT 的 15%，原因是图像存在大量冗余，低掩码率使任务过于容易
数据增强策略：对比学习效果高度依赖增强方式，随机裁剪、色彩抖动、高斯模糊的组合构成「正样本对」
动量编码器（Momentum Encoder）：MoCo 引入缓慢更新的教师编码器维护负样本队列，稳定训练过程
停梯度技巧（Stop-Gradient）：BYOL、SimSiam 在不使用负样本的情况下，仅凭 stop-gradient 避免表示坍塌

典型应用

自监督预训练已成为几乎所有主流 AI 系统的基础组件。

自然语言处理：BERT、RoBERTa、GPT 系列均以自监督预训练奠定能力基础，微调后在问答、分类、翻译等任务全面领先
计算机视觉：MAE、DINO、BEiT 等为视觉 Transformer 提供强大初始化，显著降低有标注数据需求
语音识别：wav2vec 2.0（Meta, 2020）对音频做掩码预测，大幅降低语音识别的标注需求
科学领域：在蛋白质结构预测、分子生成等标注稀缺场景，自监督预训练已成主流策略

局限与注意事项

自监督学习并非万能，在实际应用中存在若干重要局限。

代理任务设计依赖经验：掩码比例、增强策略等超参数对下游性能影响显著，缺乏通用设计原则
计算成本高：在 TB 级语料上预训练需要数百至数千块 GPU，中小团队难以独立进行全量预训练
表示可能包含偏见：爬取的语料携带社会偏见，模型会将其编码进表示中
下游迁移不总成功：预训练域与下游域差距过大时，收益明显下降
「无监督」并不准确：代理任务依然是一种监督形式，只是标签来自数据自身，并非完全无监督

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「不用标注也能学」
「BERT/GPT 预训练就是这个」
「自己给自己出题」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「自监督学习」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

自监督学习

概述

核心概念

三大技术范式

发展脉络

关键机制

典型应用

局限与注意事项

常见误解

相关术语

延伸阅读

大语言模型预训练：数据准备与训练策略完全指南

NLP 基础：从词嵌入到 Transformer

神经网络基础：从感知机到多层网络

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

概述

核心概念

三大技术范式

发展脉络

关键机制

与相邻概念的区别

典型应用

局限与注意事项

常见误解

相关术语

延伸阅读

大语言模型预训练：数据准备与训练策略完全指南

NLP 基础：从词嵌入到 Transformer

神经网络基础：从感知机到多层网络

外部参考