Synthetic Data（合成数据）

AI 造训练数据

亦作、亦称：合成数据 · 人工生成数据 · Synthetic Training Data

通过算法模拟、生成模型或数据增强技术人工生成的数据，在统计特性上模拟真实数据但不包含真实个人信息。维基百科将其定义为「由计算机模拟生成的数据，用于训练机器学习模型或保护隐私」。2026 年，合成数据已从「应急替代品」演变为 AI 训练的默认数据策略。

三大生成方法

合成数据的生成方法可分为三大类。

(1) 生成对抗网络（GAN）：2014 年 Ian Goodfellow 提出，通过生成器（Generator）和判别器（Discriminator）的对抗训练生成逼真数据。生成器学习生成越来越逼真的数据，判别器学习区分真实数据和生成数据。GAN 在图像生成领域表现优异（StyleGAN、BigGAN），但在文本和结构化数据生成上存在模式坍塌（Mode Collapse）问题。

(2) 扩散模型（Diffusion Models）：2020 年后成为主流，通过逐步去噪过程生成数据。相比 GAN，扩散模型训练更稳定、生成质量更高，但计算成本也更高。代表模型：Stable Diffusion（图像）、NVIDIA Cosmos 3（多模态世界模型，用于生成机器人训练数据）。

(3) 大语言模型生成：使用 GPT-4、Claude 等模型生成文本、代码、对话数据。2026 年的典型应用是模型蒸馏——用大模型生成高质量的推理数据（Chain-of-Thought），训练小模型。DeepSeek-R1 通过这种方式将推理能力蒸馏到 7B 模型。

六大应用场景

2026 年，合成数据的应用场景覆盖多个关键领域。

(1) 模型蒸馏（Knowledge Distillation）：用大模型生成高质量的软标签或推理数据，训练小模型。DeepSeek-R1 通过合成推理数据将能力蒸馏到 7B 模型。

(2) 自动驾驶仿真：生成数百万种驾驶场景（包括罕见的危险情况），训练自动驾驶策略而无需真实路测。Waymo 使用 NVIDIA Cosmos 3 世界模型生成合成驾驶数据。

(3) 医疗 AI：在保护患者隐私的前提下训练诊断模型。合成医疗数据保留真实数据的统计特性，但不包含任何真实患者信息。

(4) 金融风控：生成欺诈交易数据训练反欺诈系统，解决真实欺诈数据稀缺的问题。

(5) 数据增强（Data Augmentation）：对真实数据进行变换（旋转、裁剪、同义词替换等）增加训练数据多样性。

(6) 隐私保护：在金融、医疗等敏感领域用合成数据替代真实数据，满足 GDPR 等隐私法规要求。

市场规模与产业趋势

合成数据市场在 2022-2029 年间呈现爆发式增长。

市场数据：合成数据生成市场从 2022 年的 $2.885 亿增长至 2026 年约 $7.1 亿，Gartner 预测到 2029 年将达到 $68 亿规模，年复合增长率（CAGR）约 35%。

主要厂商：Mostly AI（奥地利，专注隐私保护合成数据）；Gretel（美国，提供合成数据 API）；Hazy（英国，专注金融合成数据）；NVIDIA（通过 Cosmos 3 世界模型生成合成训练数据）。

2026 年趋势：(1) 合成数据从「应急替代品」演变为 AI 训练的默认数据策略；(2) 大语言模型成为合成数据的主要生成工具；(3) 合成数据质量评估框架（Fidelity、Privacy、Utility 三维度）逐渐成熟；(4) 监管合规（GDPR、CCPA）推动合成数据在隐私敏感领域的采纳。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「AI 造训练数据」
「大模型圈高频词」
「跟合成数据是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Synthetic Data」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Synthetic Data（合成数据）

三大生成方法

六大应用场景

市场规模与产业趋势

常见误解

相关术语

延伸阅读

合成数据：AI 训练的数据革命

LLM 微调技术全景：LoRA、QLoRA、DPO 与参数高效微调实战

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕