标准回答
为什么要做增强
数据增强在训练时对图像做保持语义的随机变换,相当于免费扩充训练分布,核心目的是缓解过拟合、提升泛化与鲁棒性,在数据有限时尤其重要。
几何变换
水平翻转、随机旋转、随机裁剪/缩放、平移等,让模型学到对位置、视角、尺度的不变性。注意要符合任务语义——如数字、文字一般不做水平翻转。
颜色与噪声
颜色抖动(亮度/对比度/饱和度/色相)、随机灰度、高斯噪声、模糊等,模拟不同光照与成像条件,提升对色彩和噪声扰动的鲁棒性。
遮挡与混合
Cutout/Random Erasing 随机遮挡一块区域,逼模型利用全局上下文、增强抗遮挡。Mixup 把两张图及其标签按比例线性混合,CutMix 则把一张图的一块区域剪贴到另一张上、标签按面积比例混合。两者都能平滑决策边界、起正则作用,常显著提升分类精度与鲁棒性。此外还有 AutoAugment/RandAugment 等自动搜索增强策略。
常见误区
⚠️ 常见踩坑
增强必须保持标签语义且符合任务:例如手写数字/交通标志不能随意翻转旋转,否则改变了类别;Mixup/CutMix 要同时混合标签(软标签),只混图不混标签是错的。
追问
追问 1:Mixup 和 CutMix 有什么区别?
Mixup 是把两张整图按比例 λ 做像素级线性叠加,标签也按 λ 混合,得到「半透明叠加」的图。CutMix 不叠加像素,而是从一张图剪一个矩形区域贴到另一张图上,标签按被替换区域的面积比例混合。CutMix 保留了局部的真实纹理、不产生不自然的混叠,通常定位与精度表现更好。
追问 2:数据增强应该只在训练时做吗?
随机增强主要用于训练,目的是扩充分布。推理时一般不做随机变换以保证结果稳定;但有一种例外——测试时增强(TTA),对同一张图做多种确定性变换分别预测再平均,可小幅提升精度,代价是推理变慢。
追问 3:为什么 Cutout 能提升鲁棒性?
随机抹掉图像一块后,模型不能只依赖某个最具判别性的局部特征(否则该区域被遮就失效),被迫综合利用更多区域和全局上下文来判别。这既减轻了对单一特征的过拟合,也提升了对真实世界遮挡、缺失的鲁棒性。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。