视觉自监督学习（SimCLR / MoCo / MAE）有哪些范式？

Question 1

Accepted Answer

对比学习（SimCLR / MoCo） 核心是实例判别：同一张图的两个增强视图互为正样本，不同图为负样本，用 InfoNCE 损失拉近正对、推远负对。 - SimCLR：靠大 batch 在同一批内提供大量负样本，并强调强数据增强（裁剪、颜色抖动等）的组合。 - MoCo：用动量更新的编码器和一个先进先出的负样本队列，使负样本数量与 batch 大小解耦，小 batch 也能训练。 掩码重建（MAE） MAE（Masked Autoencoder）随机遮挡约 75% 的图像 patch，非对称结构下编码器只处理可见 patch，轻量解码器重建被遮像素。高遮挡比迫使模型学习语义级表征而非低层插值。 对比 对比学习不依赖重建、判别性强但需精心设计增强与负样本；掩码重建实现简单、对增强不敏感，且编码器只看少量 patch、训练高效。两者都产出可迁移的视觉骨干。

Question 2

为什么对比学习需要大量负样本？

Accepted Answer

InfoNCE 本质是在一堆候选中识别正样本的分类任务，负样本越多、任务越难、表征区分度越强。SimCLR 靠大 batch、MoCo 靠队列来提供足够负样本；负样本太少会让任务平凡、表征坍缩或欠区分。

Question 3

DINO 这类方法和上面两种有何不同？

Accepted Answer

DINO 属于自蒸馏式无负样本方法：学生网络匹配动量教师的输出分布，靠 centering 与 sharpening 防止坍缩，不需要显式负样本或像素重建，常能在注意力图中涌现出物体分割线索。

视觉自监督学习（SimCLR / MoCo / MAE）有哪些范式？

核心要点

标准回答

常见误区

追问

延伸学习