核心要点

  • 对比学习:同图不同增强视为正样本对、其余为负样本,拉近正对、推开负对。

  • SimCLR 依赖大 batch 提供足够负样本,外加强数据增强组合。

  • MoCo 用动量编码器维护一个负样本队列,摆脱对超大 batch 的依赖。

  • 掩码重建:MAE 遮挡约 75% patch,只用可见 patch 编码后重建被遮像素。

标准回答

对比学习(SimCLR / MoCo)

核心是实例判别:同一张图的两个增强视图互为正样本,不同图为负样本,用 InfoNCE 损失拉近正对、推远负对。

  • SimCLR:靠大 batch 在同一批内提供大量负样本,并强调强数据增强(裁剪、颜色抖动等)的组合。
  • MoCo:用动量更新的编码器和一个先进先出的负样本队列,使负样本数量与 batch 大小解耦,小 batch 也能训练。

掩码重建(MAE)

MAE(Masked Autoencoder)随机遮挡约 75% 的图像 patch,非对称结构下编码器只处理可见 patch,轻量解码器重建被遮像素。高遮挡比迫使模型学习语义级表征而非低层插值。

对比

对比学习不依赖重建、判别性强但需精心设计增强与负样本;掩码重建实现简单、对增强不敏感,且编码器只看少量 patch、训练高效。两者都产出可迁移的视觉骨干。

常见误区

⚠️ 常见踩坑

别把 MoCo 的「动量编码器」当成优化器动量——它指 key 编码器参数对 query 编码器做指数滑动平均,目的是稳定队列里负样本的表示。

追问

追问 1为什么对比学习需要大量负样本?

InfoNCE 本质是在一堆候选中识别正样本的分类任务,负样本越多、任务越难、表征区分度越强。SimCLR 靠大 batch、MoCo 靠队列来提供足够负样本;负样本太少会让任务平凡、表征坍缩或欠区分。

追问 2DINO 这类方法和上面两种有何不同?

DINO 属于自蒸馏式无负样本方法:学生网络匹配动量教师的输出分布,靠 centering 与 sharpening 防止坍缩,不需要显式负样本或像素重建,常能在注意力图中涌现出物体分割线索。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。