标准回答
对比学习(SimCLR / MoCo)
核心是实例判别:同一张图的两个增强视图互为正样本,不同图为负样本,用 InfoNCE 损失拉近正对、推远负对。
- SimCLR:靠大 batch 在同一批内提供大量负样本,并强调强数据增强(裁剪、颜色抖动等)的组合。
- MoCo:用动量更新的编码器和一个先进先出的负样本队列,使负样本数量与 batch 大小解耦,小 batch 也能训练。
掩码重建(MAE)
MAE(Masked Autoencoder)随机遮挡约 75% 的图像 patch,非对称结构下编码器只处理可见 patch,轻量解码器重建被遮像素。高遮挡比迫使模型学习语义级表征而非低层插值。
对比
对比学习不依赖重建、判别性强但需精心设计增强与负样本;掩码重建实现简单、对增强不敏感,且编码器只看少量 patch、训练高效。两者都产出可迁移的视觉骨干。
常见误区
⚠️ 常见踩坑
别把 MoCo 的「动量编码器」当成优化器动量——它指 key 编码器参数对 query 编码器做指数滑动平均,目的是稳定队列里负样本的表示。
追问
追问 1:为什么对比学习需要大量负样本?
InfoNCE 本质是在一堆候选中识别正样本的分类任务,负样本越多、任务越难、表征区分度越强。SimCLR 靠大 batch、MoCo 靠队列来提供足够负样本;负样本太少会让任务平凡、表征坍缩或欠区分。
追问 2:DINO 这类方法和上面两种有何不同?
DINO 属于自蒸馏式无负样本方法:学生网络匹配动量教师的输出分布,靠 centering 与 sharpening 防止坍缩,不需要显式负样本或像素重建,常能在注意力图中涌现出物体分割线索。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。