核心要点

  • 监督学习:数据带「标签」,学习输入 → 输出的映射,典型任务是分类与回归。

  • 无监督学习:数据无标签,目标是发现数据内在结构,典型任务是聚类与降维

  • 关键区别在于「有没有标签(正确答案)」。

标准回答

监督学习(Supervised Learning)

训练数据同时包含输入特征和对应的标签(正确答案),模型的目标是学习从输入到输出的映射关系。

  • 分类:标签是离散类别。例如垃圾邮件识别——给一堆标好「垃圾/正常」的邮件,让模型学会判断新邮件。
  • 回归:标签是连续数值。例如根据房屋面积、地段预测房价。

无监督学习(Unsupervised Learning)

训练数据只有输入、没有标签,模型需要自己发现数据中的结构或规律。

  • 聚类:把相似的样本分到一组。例如电商对用户自动分群,事先并不知道有几类用户。
  • 降维:在尽量保留信息的前提下压缩特征维度,如用 PCA 把高维数据降到二维便于可视化。

核心区别

维度 监督学习 无监督学习
数据 有标签 无标签
目标 学映射、做预测 发现结构
典型任务 分类、回归 聚类、降维
例子 垃圾邮件识别 用户分群

补充:现代大模型预训练常用自监督学习——它从无标签文本中自动构造标签(如预测下一个词),可视为无监督思想的一种特例。

常见误区

⚠️ 常见踩坑

别把「无监督学习」理解成「不需要训练」。它同样要训练,只是不依赖人工标注的标签;而自监督学习虽不用人工标签,但仍在用「预测被遮挡内容」这类自动生成的监督信号。

追问

追问 1半监督学习是什么?它解决什么问题?

半监督学习同时使用少量带标签数据和大量无标签数据进行训练。它针对的是「标注昂贵、无标签数据廉价」的现实场景,借助无标签数据帮助模型学到更好的数据分布,从而在标签很少时也能取得不错的效果。

追问 2聚类结果好不好,没有标签怎么评估?

可用内部指标,如轮廓系数(Silhouette)、簇内/簇间距离,衡量「同簇紧凑、异簇分离」的程度。若恰好有部分真实标签,也可用调整兰德指数(ARI)等外部指标对照评估。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。