Standardization(标准化)
就是把所有特征都拉到同一个尺度——均值变成 0,方差变成 1,这样模型就不会因为某个特征数值特别大而偏心了。
亦作、亦称:标准化 · Z-score normalization · Z分数归一化 · Z-score 标准化 · 特征标准化 · StandardScaler
标准化是机器学习数据预处理的基础操作,将每个特征变换为均值为 0、标准差为 1 的分布,消除量纲差异对模型训练的干扰。它是线性模型、SVM、PCA 等算法正确运行的前提,也是深度学习批归一化技术的理论根基。
概述
标准化是将原始特征转化为「零均值单位方差」表示的数值变换,是特征工程的核心步骤之一。
- 公式:z = (x − μ) / σ,μ 为训练集该特征的均值,σ 为标准差
- 结果:变换后特征均值为 0,标准差(及方差)为 1,值域理论上无界
- 别名:常称为 Z-score 归一化、特征标准化,scikit-learn 中对应
StandardScaler - 目标:消除不同特征之间因量纲和数量级差异带来的偏差,使模型公平对待每个维度
工作原理
标准化的计算过程分为两阶段:拟合(fit)与变换(transform),两者必须严格分离。
- 拟合阶段:在训练集上计算每个特征的均值 μ 和标准差 σ,并保存这两个统计量
- 变换阶段:对训练集和测试集统一用同一组 μ、σ 做变换,测试集不重新计算统计量(防止数据泄露)
- 梯度下降加速:标准化后损失面更接近球形,梯度方向更稳定,收敛速度明显加快
- 距离度量修正:消除特征量纲后,欧氏距离等度量不再被大数值特征主导
- 注意稀疏矩阵:减均值操作会将稀疏矩阵变为稠密矩阵,内存占用剧增,需改用
with_mean=False
变体与相关技术
以标准化为基础,机器学习和深度学习发展出多种针对不同场景的归一化方法。
- Min-Max 归一化:将值压缩到 [0, 1] 区间,对离群点敏感;标准化则无固定上下界,对离群点更鲁棒
- RobustScaler:用中位数和四分位距(IQR)替代均值和标准差,适合离群点多的场景
- Batch Normalization(批归一化):Ioffe & Szegedy 2015 年将标准化嵌入深度网络每层,显著加速训练
- Layer Normalization / Group Normalization:对单样本的特征维度做标准化,适合 NLP、小批量场景
- Instance Normalization:对单个样本的单个通道做标准化,常用于图像风格迁移
应用场景
标准化在多类机器学习算法和流水线中是必要的预处理步骤。
- 线性模型(线性回归、逻辑回归、SVM):特征权重的可比性依赖于相近的特征尺度,不标准化会导致正则化项失效
- 主成分分析(PCA):PCA 基于协方差矩阵,若特征方差差异悬殊,方差大的特征会主导主成分方向
- K 近邻(KNN)/ K-Means:欧氏距离计算必须在同等尺度上进行,否则大数值特征完全掩盖小数值特征
- 深度学习:作为 Batch Normalization 等技术的核心操作,贯穿现代神经网络训练全程
- 多源特征融合:将来自不同传感器或系统的特征(如温度、价格、像素值)统一到可比较的尺度
与归一化的区别
标准化(Standardization)与归一化(Normalization/Min-Max Scaling)是两个常被混淆的概念,选择哪种取决于数据分布和算法需求。
- 输出范围:归一化输出固定在 [0, 1] 或 [-1, 1];标准化输出理论无界,但大多数值在 [-3, 3] 内
- 离群点敏感性:归一化受离群点影响极大(一个极端值会把其余值压缩到极小区间);标准化仅轻微受影响
- 分布假设:标准化假设数据近似高斯分布;归一化无此假设,适合均匀分布或未知分布
- 算法适配:深度学习、SVM、PCA 通常推荐标准化;图像像素值(0~255)等天然有界数据推荐归一化
- 误区澄清:「标准化」在中文语境中有时泛指所有缩放操作,需结合上下文判断是否特指 Z-score 变换
局限与误区
正确使用标准化需要避免几个常见工程陷阱。
- 训练/测试泄露:用测试集统计量进行 fit 会将测试集信息泄露到训练过程,导致评估虚高
- 非高斯场景失效:对长尾分布(如收入、词频)做标准化后,数据仍非高斯,可先做对数变换再标准化
- 树模型不需要:决策树、随机森林、XGBoost 等基于分裂点的模型对特征尺度不敏感,标准化无益
- 在线学习挑战:流数据场景下均值和标准差会随时间漂移,需维护滑动统计量或周期重新 fit
- 二值/类别特征:对 one-hot 编码等二值特征做标准化通常没有意义,甚至引入负数破坏语义
发展脉络
标准化思想从统计学起源,逐步演化为现代深度学习的核心模块。
- 19 世纪末:Karl Pearson 系统化标准差概念,奠定 Z 分数的统计基础
- 20 世纪中期:Z-score 在心理测量、质量控制等领域广泛应用,成为标准统计工具
- 1990s:随着神经网络和 SVM 兴起,特征标准化作为必要预处理步骤被纳入 ML 工作流
- 2015 年:Ioffe & Szegedy 提出 Batch Normalization,将标准化嵌入深度网络层间,彻底改变了深层网络训练方式
- 2016–2018 年:Layer Normalization、Instance Normalization、Group Normalization 相继提出,覆盖 NLP、图像生成等场景
- 2020 年至今:Pre-LayerNorm、RMSNorm 等变体在大语言模型(LLM)训练中广泛采用,标准化成为 Transformer 架构不可或缺的组件
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是把所有特征都拉到同一个尺度——均值变成 0,方差变成 1,这样模型就不会因为某个特征数值特别大而偏心了。」
- 「标准化和归一化经常搞混:归一化是把数缩到 0~1 之间,标准化是让数据以 0 为中心、以标准差为单位,不保证在固定区间内。」
- 「有人以为标准化是可选步骤,其实对于 SVM、PCA 这类依赖距离或协方差的算法,不做标准化往往直接导致结果崩掉。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 2 篇文章,帮助深入理解该术语。
- 1
AI 安全评估基准与标准化:从碎片化到统一的演进之路
2026 年 AI 安全领域最紧迫的议题之一:安全评估基准的碎片化严重阻碍了行业进步。从 HELM、AISafetyBench 到 MLCommons AI Safety 工作组,从 NIST AI RMF 到 ISO/IEC 42001,本文系统梳理 AI 安全评估的全景——现有基准的局限性、标准化组织的最新进展、企业落地的评估框架,以及未来统一评估体系的技术方向。
- 2
MCP 协议生态全景:AI Agent 工具交互的标准化之路
从协议原理到生态格局,全面解析 Model Context Protocol 如何成为 AI Agent 与外部世界交互的通用标准
外部参考
维基百科:查看「Standardization」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。