标准回答
做法
MAE(Masked Autoencoder)随机遮挡约 75% 的图像 patch,编码器只对剩余可见 patch 计算表示,再把可见 token 与表示遮挡位置的 mask token 一起送入一个轻量解码器,重建被遮挡区域的像素,用重建损失训练,无需任何标注。
为什么有效
- 高遮挡比是关键:图像有大量空间冗余,若只遮一小块,靠相邻像素插值就能补全,模型学不到语义;遮掉 75% 后,必须理解物体结构与上下文才能重建,逼出语义级表征。
- 非对称结构高效:重型编码器只处理约 25% 的可见 patch,计算量大降;负担重的全 token 处理交给轻量解码器,因此能用较低成本预训练大 ViT。
- 预训练后丢掉解码器,编码器作为骨干迁移到下游任务,微调表现强。
与对比学习的差异
常见误区
⚠️ 常见踩坑
语言里 BERT 遮 15% 就够,因为 token 语义密度高;图像空间冗余大,遮少了能靠插值蒙混过关,所以 MAE 必须用 75% 这样的高遮挡比,二者不可照搬。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。