图像增强如何提升视觉模型性能？

Q: 图像增强如何提升视觉模型性能？

原理：在标注成本固定下，增强 = 对输入施加已知不变性变换，使模型见到更多「等价」样本，降低泛化误差。 常见增强 - 几何：水平翻转、旋转、缩放裁剪、仿射、弹性形变（医学） - 颜色：亮度、对比度、饱和度、色调抖动；Grayscale - 遮挡：Cutout、Random Erasing、CutMix（局部替换） - 混合：Mixup、Mosaic（检测多图拼接） 收益 1. 缓解过拟合，尤其小数据集 2. 提升光照、尺度、遮挡鲁棒性 3. 隐式正则，等效更大 batch 多样性 实现：OpenCV、Albumentations、PyTorch transforms.v2、TensorFlow image 模块。 注意 - 语义保持：文字识别不宜剧烈扭曲 - 检测/分割需 同步变换 bbox/mask - 过强增强会损害收敛；AutoAugment/RandAugment 学策略 详见 数据增强。

Question 1

图像增强如何提升视觉模型性能？

Accepted Answer

原理：在标注成本固定下，增强 = 对输入施加已知不变性变换，使模型见到更多「等价」样本，降低泛化误差。

常见增强

几何：水平翻转、旋转、缩放裁剪、仿射、弹性形变（医学）
颜色：亮度、对比度、饱和度、色调抖动；Grayscale
遮挡：Cutout、Random Erasing、CutMix（局部替换）
混合：Mixup、Mosaic（检测多图拼接）

收益

缓解过拟合，尤其小数据集
提升光照、尺度、遮挡鲁棒性
隐式正则，等效更大 batch 多样性

实现：OpenCV、Albumentations、PyTorch transforms.v2、TensorFlow image 模块。

注意

语义保持：文字识别不宜剧烈扭曲
检测/分割需 同步变换 bbox/mask
过强增强会损害收敛；AutoAugment/RandAugment 学策略

详见数据增强。

Question 2

Mixup 和 CutMix 区别？

Accepted Answer

Mixup 线性混合两图及标签；CutMix 剪贴一块区域替换，标签按面积混合。CutMix 保留局部完整语义，分类检测都常用。

Question 3

增强能否替代更多真实数据？

Accepted Answer

不能完全替代。增强覆盖已知变换，难模拟新域（新相机、新场景）。真实多样性数据 + 适度增强最佳。

Question 4

测试时增强 TTA 有用吗？

Accepted Answer

有用但有代价。对同一张图做翻转、多尺度、多裁剪等多次推理再融合结果，通常能稳定提升一两个点精度，常用于比赛和高精度离线场景。代价是推理成本翻几倍，实时/边缘部署一般不用。注意施加的变换要与训练时的不变性一致，否则反而掉点。

图像增强如何提升视觉模型性能？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习