核心要点

  • 特征(Feature):用来描述一个样本的输入变量,是模型用来做判断的「线索」。

  • 标签(Label):我们希望模型预测的目标答案,是训练数据里的「标准答案」。

  • 一个样本通常包含多个特征和一个标签,模型学习的就是「特征→标签」的关系。

  • 有标签的数据用于监督学习;预测时只有特征、没有标签,标签由模型给出。

标准回答

用买房举例

假设要预测房价。一套房子的面积、楼层、地段、房龄这些用来描述它的信息,就是特征;这套房子最终的成交价格,就是标签。

特征是「输入线索」

特征是喂给模型的输入,相当于让模型「看到」的信息。特征选得好不好,直接影响模型能不能学准——比如预测房价时,面积是个很有用的特征,而「业主的星座」基本没用。

标签是「要预测的答案」

标签是训练时告诉模型的标准答案。模型反复对比自己的预测和真实标签,逐步学会从特征推断标签的规律。等到预测新房子时,我们只给它特征(面积、楼层等),没有标签,让模型自己算出预测的房价。

常见误区

⚠️ 常见踩坑

初学者容易把特征和标签搞反。记住:特征是「已知的输入」,标签是「想预测的目标」。同一份数据里某列是特征还是标签,取决于你的任务目标。

追问

追问 1一定要有标签才能训练吗?

不一定。有标签的是监督学习(如预测房价、垃圾邮件分类);没有标签、只让模型从特征中发现结构的是无监督学习(如聚类、降维)。本题讲的特征/标签主要针对监督学习。

追问 2什么是特征工程?

特征工程是把原始数据加工成更利于模型学习的特征的过程,比如把「出生日期」转成「年龄」、对地段做编码、做归一化等。好的特征往往比换更复杂的模型更能提升效果。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。