Feature Engineering（特征工程）

特征工程就是把原始数据『加工』成模型看得懂、能用好的形式，是机器学习里最耗时也最考验经验的环节。

亦作、亦称：特征工程 · feature construction · 特征构造 · feature extraction · 特征提取

特征工程是将原始数据转化为机器学习模型可利用的高质量输入特征的全过程，直接决定模型的上限。在深度学习自动提取特征的背景下，结构化数据场景中的特征工程依然是数据科学的核心竞争力。

概述

特征工程是机器学习流水线中连接原始数据与模型训练的关键桥梁。

特征工程涵盖多类经典技术，各有适用场景。

特征提取：从文本、图像、时序等非结构化数据中抽取数值表示（如 TF-IDF、SIFT）
特征转换：归一化（Min-Max Scaling）、标准化（Z-Score）、对数变换用于处理偏态分布
特征编码：One-Hot Encoding 处理名义类别，Label Encoding 处理有序类别，Target Encoding 利用目标变量信息
特征选择：相关性分析、互信息、L1 正则化（Lasso）剔除冗余特征
特征构造：交叉特征（如用户×商品）、多项式特征、时间滑窗统计等手工组合

特征工程可按自动化程度和数据类型进行分类。

手工特征工程：依赖领域知识，由数据科学家手动设计；精度高但耗时
自动化特征工程（AutoFE）：工具如 Featuretools（基于 Deep Feature Synthesis）、AutoFeat，自动枚举并筛选特征组合
表格数据特征工程：交叉特征、聚合统计、分箱（Binning）是主流手段
时序特征工程：滑动窗口统计、趋势提取、季节性分解
文本特征工程：词袋（BoW）、TF-IDF、n-gram，以及预训练嵌入（Embedding）
图像特征工程：传统 HOG、SIFT；深度学习下由 CNN 自动完成

特征工程广泛应用于各类 AI 落地场景。

深度学习和 AutoML 改变了特征工程的边界，但并未使其消失。

特征工程中存在若干常见陷阱，需要特别警惕。

特征工程随机器学习范式演进经历了多个阶段。

1990s：统计学习时代，特征工程主要依赖统计方法（相关性分析、PCA 降维）
2000s：SVM、集成方法兴起，特征交叉与核函数设计成为竞赛关键手段
2012：AlexNet 证明深度学习可自动学习图像特征，开始冲击手工视觉特征（HOG、SIFT）
2015：Deep Feature Synthesis（Featuretools 前身）发布，开启自动化特征工程新纪元
2017-2019：Kaggle 竞赛进一步推动特征工程工程化，Target Encoding 等技术广泛传播
2020s：Feature Store 成为 MLOps 基础设施标配；LLM 时代提示工程（Prompt Engineering）可视为面向语言模型的广义特征工程

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。