Data Augmentation（数据增强）

就是把一张图片翻来翻去、剪一剪、调个颜色，让模型见过更多'长相不同'的同一张图，这样就不容易认死。

亦作、亦称：数据增强 · augmentation · 训练数据增强 · 样本增强

数据增强通过对已有样本施加变换来扩大训练集，是提升深度学习模型泛化能力的核心工程手段之一。从早期的随机翻转、裁剪，到如今的 AutoAugment、Mixup、生成式增强，技术体系持续演进。

概述

数据增强（Data Augmentation）是机器学习与深度学习训练流程中的关键预处理步骤。

核心目标：在标注数据有限的情况下，扩充训练集的规模与多样性，降低模型对特定输入模式的过拟合。
适用场景：几乎所有监督学习任务，尤其在计算机视觉、NLP、语音识别、医学影像等领域广泛应用。
效果来源：通过让模型在训练时见到同一语义的多种「外貌」，迫使模型学习到更鲁棒的特征表示。
成本优势：相较于人工标注新数据，数据增强几乎零边际成本。

工作原理

数据增强的核心思路是标签保持变换：对输入 x 施加变换 T，得到 T(x)，同时标签 y 不变（或按规则混合）。

几何变换：翻转、旋转、缩放、平移、透视变换等，不改变图像语义。
颜色/像素变换：亮度、对比度、饱和度抖动，以及 Gaussian Noise 添加。
区域遮挡：Cutout、Random Erasing，随机遮盖图像局部区域，迫使模型不依赖局部特征。
混合增强：Mixup 对两张图片的像素和标签做线性插值；CutMix 将一张图片的矩形区域贴到另一张，标签按面积比混合。
自动化策略搜索：AutoAugment 用强化学习在预定义操作空间中搜索最优策略组合。

跨模态类型

数据增强技术因数据模态不同而有显著差异，需针对性选择。

计算机视觉：几何变换、色彩抖动、Mixup/CutMix、多样化裁剪（RandomResizedCrop）是主流手段。
NLP：同义词替换（EDA）、回译（back-translation，将文本翻译成另一语言再译回）、随机插入/删除/交换 token。
语音/音频：时域拉伸（time stretch）、音调偏移（pitch shift）、添加背景噪声、SpecAugment（遮挡频谱图的时频区域）。
表格数据：SMOTE（合成少数类过采样）、Gaussian 噪声注入，但需谨慎，过度增强可能破坏特征分布。
生成式增强：利用 GAN 或扩散模型生成合成样本，属于数据合成（Data Synthesis），是近年重要趋势。

应用场景

数据增强在多个实际场景中发挥关键作用。

医学影像：病例标注成本极高，数据量稀少，增强（旋转、弹性形变等）显著提升分割和分类模型性能。
自动驾驶感知：对摄像头图像施加光照变换、雨雾模拟，提升感知模型对极端天气的鲁棒性。
小样本学习：增强结合迁移学习，在少量标注样本上取得接近全量数据的效果。
半监督学习：对无标注样本施加强增强、对同一样本弱增强，利用一致性正则（如 MixMatch、FixMatch）提升标签利用效率。
自监督预训练：MoCo、SimCLR、DINO 等方法将同一图像的两种增强视图作为正样本对，驱动模型学习视觉表征。

与相邻概念的区别

数据增强常与数据合成、迁移学习等概念混淆，需加以区分。

数据增强 vs 数据合成：增强从已有样本变换得到新样本（标签保持或按规则混合）；合成是从零生成全新样本（如 GAN/扩散模型），两者可互补使用。
数据增强 vs 正则化：增强作用于数据层面（输入空间），Dropout/L2 正则化作用于模型参数层面，两者都能缓解过拟合，可叠加使用。
数据增强 vs 迁移学习：迁移学习通过预训练权重弥补数据不足；增强通过扩充同域数据，两者协同效果更佳。
在线增强 vs 离线增强：在线增强在每个 batch 训练时实时生成，节省存储、效果更好；离线增强预先生成存储，推理稳定但灵活性低。

局限与误区

数据增强并非万能，存在若干常见误区和实践局限。

误区：增强越多越好：过强或不当变换（如将「6」旋转 180° 后标签仍为「6」）会引入标签噪声，损害模型性能。
领域依赖性：在自然图像上有效的翻转，在文字检测或某些医学影像任务中可能改变语义，不可直接套用。
增强-测试分布不匹配：训练时若施加的增强与测试场景不一致，收益有限甚至有害。
AutoAugment 搜索成本高：在代理任务上搜索需要大量计算资源，不适合资源受限场景；RandAugment 等简化版更实用。
生成式增强质量控制：用 GAN/扩散模型生成的样本若质量不佳，会引入分布噪声，需额外过滤机制。

发展脉络

数据增强技术随深度学习发展不断演进，从手工规则走向自动化与生成式。

1990s：语音识别领域最早系统性使用时域拉伸、音调偏移等增强手段。
2012：AlexNet（Krizhevsky 等）将随机裁剪与水平翻转引入深度卷积网络训练，成为 CV 增强基准范式。
2017：Cutout 提出随机矩形遮挡，随后 Random Erasing 进一步泛化。
2018：Mixup（Zhang 等，ICLR 2018）提出标签平滑插值，显著提升泛化与校准性。
2019：AutoAugment（Cubuk 等，CVPR 2019）用强化学习自动搜索策略；CutMix 在同年提出区域混合方案；RandAugment 大幅降低搜索成本。
2021：SpecAugment 成为语音预训练标准；自监督学习（MoCo v3、DINO）将增强内化为学习目标本身。
2022-至今：扩散模型驱动的生成式数据增强兴起，LLM 用于 NLP 数据增强（回译、改写）成为主流，多模态增强快速发展。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是把一张图片翻来翻去、剪一剪、调个颜色，让模型见过更多'长相不同'的同一张图，这样就不容易认死。」
「数据增强不等于造假数据——它变的是输入的表现形式，标签含义并没变。」
「小数据集救星，加几行增强代码，准确率能涨好几个点。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Data Augmentation」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。