Standardization(标准化)

就是把所有特征都拉到同一个尺度——均值变成 0,方差变成 1,这样模型就不会因为某个特征数值特别大而偏心了。

亦作、亦称:标准化 · Z-score normalization · Z分数归一化 · Z-score 标准化 · 特征标准化 · StandardScaler

标准化是机器学习数据预处理的基础操作,将每个特征变换为均值为 0、标准差为 1 的分布,消除量纲差异对模型训练的干扰。它是线性模型、SVM、PCA 等算法正确运行的前提,也是深度学习批归一化技术的理论根基。

概述

标准化是将原始特征转化为「零均值单位方差」表示的数值变换,是特征工程的核心步骤之一。

  • 公式:z = (x − μ) / σ,μ 为训练集该特征的均值,σ 为标准差
  • 结果:变换后特征均值为 0,标准差(及方差)为 1,值域理论上无界
  • 别名:常称为 Z-score 归一化特征标准化,scikit-learn 中对应 StandardScaler
  • 目标:消除不同特征之间因量纲和数量级差异带来的偏差,使模型公平对待每个维度

工作原理

标准化的计算过程分为两阶段:拟合(fit)与变换(transform),两者必须严格分离。

  • 拟合阶段:在训练集上计算每个特征的均值 μ 和标准差 σ,并保存这两个统计量
  • 变换阶段:对训练集和测试集统一用同一组 μ、σ 做变换,测试集不重新计算统计量(防止数据泄露)
  • 梯度下降加速:标准化后损失面更接近球形,梯度方向更稳定,收敛速度明显加快
  • 距离度量修正:消除特征量纲后,欧氏距离等度量不再被大数值特征主导
  • 注意稀疏矩阵:减均值操作会将稀疏矩阵变为稠密矩阵,内存占用剧增,需改用 with_mean=False

变体与相关技术

以标准化为基础,机器学习和深度学习发展出多种针对不同场景的归一化方法。

  • Min-Max 归一化:将值压缩到 [0, 1] 区间,对离群点敏感;标准化则无固定上下界,对离群点更鲁棒
  • RobustScaler:用中位数和四分位距(IQR)替代均值和标准差,适合离群点多的场景
  • Batch Normalization(批归一化):Ioffe & Szegedy 2015 年将标准化嵌入深度网络每层,显著加速训练
  • Layer Normalization / Group Normalization:对单样本的特征维度做标准化,适合 NLP、小批量场景
  • Instance Normalization:对单个样本的单个通道做标准化,常用于图像风格迁移

应用场景

标准化在多类机器学习算法和流水线中是必要的预处理步骤。

  • 线性模型(线性回归、逻辑回归、SVM):特征权重的可比性依赖于相近的特征尺度,不标准化会导致正则化项失效
  • 主成分分析(PCA):PCA 基于协方差矩阵,若特征方差差异悬殊,方差大的特征会主导主成分方向
  • K 近邻(KNN)/ K-Means:欧氏距离计算必须在同等尺度上进行,否则大数值特征完全掩盖小数值特征
  • 深度学习:作为 Batch Normalization 等技术的核心操作,贯穿现代神经网络训练全程
  • 多源特征融合:将来自不同传感器或系统的特征(如温度、价格、像素值)统一到可比较的尺度

与归一化的区别

标准化(Standardization)与归一化(Normalization/Min-Max Scaling)是两个常被混淆的概念,选择哪种取决于数据分布和算法需求。

  • 输出范围:归一化输出固定在 [0, 1] 或 [-1, 1];标准化输出理论无界,但大多数值在 [-3, 3] 内
  • 离群点敏感性:归一化受离群点影响极大(一个极端值会把其余值压缩到极小区间);标准化仅轻微受影响
  • 分布假设:标准化假设数据近似高斯分布;归一化无此假设,适合均匀分布或未知分布
  • 算法适配:深度学习、SVM、PCA 通常推荐标准化;图像像素值(0~255)等天然有界数据推荐归一化
  • 误区澄清:「标准化」在中文语境中有时泛指所有缩放操作,需结合上下文判断是否特指 Z-score 变换

局限与误区

正确使用标准化需要避免几个常见工程陷阱。

  • 训练/测试泄露:用测试集统计量进行 fit 会将测试集信息泄露到训练过程,导致评估虚高
  • 非高斯场景失效:对长尾分布(如收入、词频)做标准化后,数据仍非高斯,可先做对数变换再标准化
  • 树模型不需要:决策树、随机森林、XGBoost 等基于分裂点的模型对特征尺度不敏感,标准化无益
  • 在线学习挑战:流数据场景下均值和标准差会随时间漂移,需维护滑动统计量或周期重新 fit
  • 二值/类别特征:对 one-hot 编码等二值特征做标准化通常没有意义,甚至引入负数破坏语义

发展脉络

标准化思想从统计学起源,逐步演化为现代深度学习的核心模块。

  • 19 世纪末:Karl Pearson 系统化标准差概念,奠定 Z 分数的统计基础
  • 20 世纪中期:Z-score 在心理测量、质量控制等领域广泛应用,成为标准统计工具
  • 1990s:随着神经网络和 SVM 兴起,特征标准化作为必要预处理步骤被纳入 ML 工作流
  • 2015 年:Ioffe & Szegedy 提出 Batch Normalization,将标准化嵌入深度网络层间,彻底改变了深层网络训练方式
  • 2016–2018 年:Layer Normalization、Instance Normalization、Group Normalization 相继提出,覆盖 NLP、图像生成等场景
  • 2020 年至今:Pre-LayerNorm、RMSNorm 等变体在大语言模型(LLM)训练中广泛采用,标准化成为 Transformer 架构不可或缺的组件

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是把所有特征都拉到同一个尺度——均值变成 0,方差变成 1,这样模型就不会因为某个特征数值特别大而偏心了。」
  • 「标准化和归一化经常搞混:归一化是把数缩到 0~1 之间,标准化是让数据以 0 为中心、以标准差为单位,不保证在固定区间内。」
  • 「有人以为标准化是可选步骤,其实对于 SVM、PCA 这类依赖距离或协方差的算法,不做标准化往往直接导致结果崩掉。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 2 篇文章,帮助深入理解该术语。

  1. 1

    AI 安全评估基准与标准化:从碎片化到统一的演进之路

    2026 年 AI 安全领域最紧迫的议题之一:安全评估基准的碎片化严重阻碍了行业进步。从 HELM、AISafetyBench 到 MLCommons AI Safety 工作组,从 NIST AI RMF 到 ISO/IEC 42001,本文系统梳理 AI 安全评估的全景——现有基准的局限性、标准化组织的最新进展、企业落地的评估框架,以及未来统一评估体系的技术方向。

  2. 2

    MCP 协议生态全景:AI Agent 工具交互的标准化之路

    从协议原理到生态格局,全面解析 Model Context Protocol 如何成为 AI Agent 与外部世界交互的通用标准

外部参考

维基百科:查看「Standardization」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。