核心要点

  • 随机遮挡约 75% 的图像 patch,仅用可见 patch 重建被遮像素,是无标注预训练

  • 高遮挡比让任务无法靠邻域插值完成,迫使模型学习语义级表征。

  • 非对称设计:重型编码器只处理可见 patch,轻量解码器才接全部 token

  • 编码器只看约 25% token,大幅降低计算量,可高效训练大模型。

标准回答

做法

MAE(Masked Autoencoder)随机遮挡约 75% 的图像 patch,编码器只对剩余可见 patch 计算表示,再把可见 token 与表示遮挡位置的 mask token 一起送入一个轻量解码器,重建被遮挡区域的像素,用重建损失训练,无需任何标注。

为什么有效

  • 高遮挡比是关键:图像有大量空间冗余,若只遮一小块,靠相邻像素插值就能补全,模型学不到语义;遮掉 75% 后,必须理解物体结构与上下文才能重建,逼出语义级表征。
  • 非对称结构高效:重型编码器只处理约 25% 的可见 patch,计算量大降;负担重的全 token 处理交给轻量解码器,因此能用较低成本预训练大 ViT
  • 预训练后丢掉解码器,编码器作为骨干迁移到下游任务,微调表现强。

对比学习的差异

MAE 不需要数据增强设计与负样本,实现简单、对增强不敏感,属于生成式(重建式)自监督

常见误区

⚠️ 常见踩坑

语言里 BERT 遮 15% 就够,因为 token 语义密度高;图像空间冗余大,遮少了能靠插值蒙混过关,所以 MAE 必须用 75% 这样的高遮挡比,二者不可照搬。

追问

追问 1MAE 的编码器为什么不处理被遮挡的 patch?

这是非对称设计的核心:编码器只接收可见 patch(约 25%),计算量随 token 数大幅下降,使训练大模型更省时省显存;mask token 只在轻量解码器阶段引入用于定位待重建位置。这样既高效又避免编码器把算力浪费在无信息的占位符上。

追问 2MAE 重建像素而非高层特征,会不会学到的是低层信息?

不会。正因为遮挡比例高,无法靠局部纹理插值完成重建,模型必须依赖全局语义和物体结构来推断缺失区域,所以即便监督信号是像素,学到的表征仍偏语义。也有工作改为重建特征(如 HOG 或在线特征)进一步强化语义。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。