掩码自编码（MAE）这类自监督预训练为什么有效？

Question 1

Accepted Answer

做法

MAE（Masked Autoencoder）随机遮挡约 75% 的图像 patch，编码器只对剩余可见 patch 计算表示，再把可见 token 与表示遮挡位置的 mask token 一起送入一个轻量解码器，重建被遮挡区域的像素，用重建损失训练，无需任何标注。

为什么有效

与对比学习的差异

MAE 不需要数据增强设计与负样本，实现简单、对增强不敏感，属于生成式（重建式）自监督。

Question 2

MAE 的编码器为什么不处理被遮挡的 patch？

Accepted Answer

这是非对称设计的核心：编码器只接收可见 patch（约 25%），计算量随 token 数大幅下降，使训练大模型更省时省显存；mask token 只在轻量解码器阶段引入用于定位待重建位置。这样既高效又避免编码器把算力浪费在无信息的占位符上。

Question 3

MAE 重建像素而非高层特征，会不会学到的是低层信息？

Accepted Answer

不会。正因为遮挡比例高，无法靠局部纹理插值完成重建，模型必须依赖全局语义和物体结构来推断缺失区域，所以即便监督信号是像素，学到的表征仍偏语义。也有工作改为重建特征（如 HOG 或在线特征）进一步强化语义。

核心要点