标准回答
监督学习(Supervised Learning)
训练数据同时包含输入特征和对应的标签(正确答案),模型的目标是学习从输入到输出的映射关系。
- 分类:标签是离散类别。例如垃圾邮件识别——给一堆标好「垃圾/正常」的邮件,让模型学会判断新邮件。
- 回归:标签是连续数值。例如根据房屋面积、地段预测房价。
无监督学习(Unsupervised Learning)
训练数据只有输入、没有标签,模型需要自己发现数据中的结构或规律。
- 聚类:把相似的样本分到一组。例如电商对用户自动分群,事先并不知道有几类用户。
- 降维:在尽量保留信息的前提下压缩特征维度,如用 PCA 把高维数据降到二维便于可视化。
核心区别
| 维度 | 监督学习 | 无监督学习 |
|---|---|---|
| 数据 | 有标签 | 无标签 |
| 目标 | 学映射、做预测 | 发现结构 |
| 典型任务 | 分类、回归 | 聚类、降维 |
| 例子 | 垃圾邮件识别 | 用户分群 |
常见误区
⚠️ 常见踩坑
别把「无监督学习」理解成「不需要训练」。它同样要训练,只是不依赖人工标注的标签;而自监督学习虽不用人工标签,但仍在用「预测被遮挡内容」这类自动生成的监督信号。
追问
追问 1:半监督学习是什么?它解决什么问题?
半监督学习同时使用少量带标签数据和大量无标签数据进行训练。它针对的是「标注昂贵、无标签数据廉价」的现实场景,借助无标签数据帮助模型学到更好的数据分布,从而在标签很少时也能取得不错的效果。
追问 2:聚类结果好不好,没有标签怎么评估?
可用内部指标,如轮廓系数(Silhouette)、簇内/簇间距离,衡量「同簇紧凑、异簇分离」的程度。若恰好有部分真实标签,也可用调整兰德指数(ARI)等外部指标对照评估。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。