图像数据增强有哪些常用方法？分别解决什么问题？

Question 1

Accepted Answer

为什么要做增强 数据增强在训练时对图像做保持语义的随机变换，相当于免费扩充训练分布，核心目的是缓解过拟合、提升泛化与鲁棒性，在数据有限时尤其重要。 几何变换 水平翻转、随机旋转、随机裁剪/缩放、平移等，让模型学到对位置、视角、尺度的不变性。注意要符合任务语义——如数字、文字一般不做水平翻转。 颜色与噪声 颜色抖动（亮度/对比度/饱和度/色相）、随机灰度、高斯噪声、模糊等，模拟不同光照与成像条件，提升对色彩和噪声扰动的鲁棒性。 遮挡与混合 Cutout/Random Erasing 随机遮挡一块区域，逼模型利用全局上下文、增强抗遮挡。Mixup 把两张图及其标签按比例线性混合，CutMix 则把一张图的一块区域剪贴到另一张上、标签按面积比例混合。两者都能平滑决策边界、起正则作用，常显著提升分类精度与鲁棒性。此外还有 AutoAugment/RandAugment 等自动搜索增强策略。

Question 2

Mixup 和 CutMix 有什么区别？

Accepted Answer

Mixup 是把两张整图按比例 λ 做像素级线性叠加，标签也按 λ 混合，得到「半透明叠加」的图。CutMix 不叠加像素，而是从一张图剪一个矩形区域贴到另一张图上，标签按被替换区域的面积比例混合。CutMix 保留了局部的真实纹理、不产生不自然的混叠，通常定位与精度表现更好。

Question 3

数据增强应该只在训练时做吗？

Accepted Answer

随机增强主要用于训练，目的是扩充分布。推理时一般不做随机变换以保证结果稳定；但有一种例外——测试时增强（TTA），对同一张图做多种确定性变换分别预测再平均，可小幅提升精度，代价是推理变慢。

Question 4

为什么 Cutout 能提升鲁棒性？

Accepted Answer

随机抹掉图像一块后，模型不能只依赖某个最具判别性的局部特征（否则该区域被遮就失效），被迫综合利用更多区域和全局上下文来判别。这既减轻了对单一特征的过拟合，也提升了对真实世界遮挡、缺失的鲁棒性。

图像数据增强有哪些常用方法？分别解决什么问题？

核心要点

标准回答

常见误区

追问

延伸学习