Standardization（标准化）

就是把所有特征都拉到同一个尺度——均值变成 0，方差变成 1，这样模型就不会因为某个特征数值特别大而偏心了。

亦作、亦称：标准化 · Z-score normalization · Z分数归一化 · Z-score 标准化 · 特征标准化 · StandardScaler

标准化是机器学习数据预处理的基础操作，将每个特征变换为均值为 0、标准差为 1 的分布，消除量纲差异对模型训练的干扰。它是线性模型、SVM、PCA 等算法正确运行的前提，也是深度学习批归一化技术的理论根基。

概述

标准化是将原始特征转化为「零均值单位方差」表示的数值变换，是特征工程的核心步骤之一。

公式：z = (x − μ) / σ，μ 为训练集该特征的均值，σ 为标准差
结果：变换后特征均值为 0，标准差（及方差）为 1，值域理论上无界
别名：常称为 Z-score 归一化、特征标准化，scikit-learn 中对应 StandardScaler
目标：消除不同特征之间因量纲和数量级差异带来的偏差，使模型公平对待每个维度

工作原理

标准化的计算过程分为两阶段：拟合（fit）与变换（transform），两者必须严格分离。

拟合阶段：在训练集上计算每个特征的均值 μ 和标准差 σ，并保存这两个统计量
变换阶段：对训练集和测试集统一用同一组 μ、σ 做变换，测试集不重新计算统计量（防止数据泄露）
梯度下降加速：标准化后损失面更接近球形，梯度方向更稳定，收敛速度明显加快
距离度量修正：消除特征量纲后，欧氏距离等度量不再被大数值特征主导
注意稀疏矩阵：减均值操作会将稀疏矩阵变为稠密矩阵，内存占用剧增，需改用 with_mean=False

变体与相关技术

以标准化为基础，机器学习和深度学习发展出多种针对不同场景的归一化方法。

Min-Max 归一化：将值压缩到 [0, 1] 区间，对离群点敏感；标准化则无固定上下界，对离群点更鲁棒
RobustScaler：用中位数和四分位距（IQR）替代均值和标准差，适合离群点多的场景
Batch Normalization（批归一化）：Ioffe & Szegedy 2015 年将标准化嵌入深度网络每层，显著加速训练
Layer Normalization / Group Normalization：对单样本的特征维度做标准化，适合 NLP、小批量场景
Instance Normalization：对单个样本的单个通道做标准化，常用于图像风格迁移

应用场景

标准化在多类机器学习算法和流水线中是必要的预处理步骤。

线性模型（线性回归、逻辑回归、SVM）：特征权重的可比性依赖于相近的特征尺度，不标准化会导致正则化项失效
主成分分析（PCA）：PCA 基于协方差矩阵，若特征方差差异悬殊，方差大的特征会主导主成分方向
K 近邻（KNN）/ K-Means：欧氏距离计算必须在同等尺度上进行，否则大数值特征完全掩盖小数值特征
深度学习：作为 Batch Normalization 等技术的核心操作，贯穿现代神经网络训练全程
多源特征融合：将来自不同传感器或系统的特征（如温度、价格、像素值）统一到可比较的尺度

与归一化的区别

标准化（Standardization）与归一化（Normalization/Min-Max Scaling）是两个常被混淆的概念，选择哪种取决于数据分布和算法需求。

输出范围：归一化输出固定在 [0, 1] 或 [-1, 1]；标准化输出理论无界，但大多数值在 [-3, 3] 内
离群点敏感性：归一化受离群点影响极大（一个极端值会把其余值压缩到极小区间）；标准化仅轻微受影响
分布假设：标准化假设数据近似高斯分布；归一化无此假设，适合均匀分布或未知分布
算法适配：深度学习、SVM、PCA 通常推荐标准化；图像像素值（0~255）等天然有界数据推荐归一化
误区澄清：「标准化」在中文语境中有时泛指所有缩放操作，需结合上下文判断是否特指 Z-score 变换

局限与误区

正确使用标准化需要避免几个常见工程陷阱。

训练/测试泄露：用测试集统计量进行 fit 会将测试集信息泄露到训练过程，导致评估虚高
非高斯场景失效：对长尾分布（如收入、词频）做标准化后，数据仍非高斯，可先做对数变换再标准化
树模型不需要：决策树、随机森林、XGBoost 等基于分裂点的模型对特征尺度不敏感，标准化无益
在线学习挑战：流数据场景下均值和标准差会随时间漂移，需维护滑动统计量或周期重新 fit
二值/类别特征：对 one-hot 编码等二值特征做标准化通常没有意义，甚至引入负数破坏语义

发展脉络

标准化思想从统计学起源，逐步演化为现代深度学习的核心模块。

19 世纪末：Karl Pearson 系统化标准差概念，奠定 Z 分数的统计基础
20 世纪中期：Z-score 在心理测量、质量控制等领域广泛应用，成为标准统计工具
1990s：随着神经网络和 SVM 兴起，特征标准化作为必要预处理步骤被纳入 ML 工作流
2015 年：Ioffe & Szegedy 提出 Batch Normalization，将标准化嵌入深度网络层间，彻底改变了深层网络训练方式
2016–2018 年：Layer Normalization、Instance Normalization、Group Normalization 相继提出，覆盖 NLP、图像生成等场景
2020 年至今：Pre-LayerNorm、RMSNorm 等变体在大语言模型（LLM）训练中广泛采用，标准化成为 Transformer 架构不可或缺的组件

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是把所有特征都拉到同一个尺度——均值变成 0，方差变成 1，这样模型就不会因为某个特征数值特别大而偏心了。」
「标准化和归一化经常搞混：归一化是把数缩到 0~1 之间，标准化是让数据以 0 为中心、以标准差为单位，不保证在固定区间内。」
「有人以为标准化是可选步骤，其实对于 SVM、PCA 这类依赖距离或协方差的算法，不做标准化往往直接导致结果崩掉。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Standardization」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。