核心要点

  • 设定:少量标注 + 大量无标注数据,目标是用无标注数据提升模型,降低标注成本

  • 自训练/伪标签:用已有模型给无标注数据打伪标签,挑高置信度的加入训练,迭代提升

  • 一致性正则:对同一无标注样本施加扰动/增强,约束模型输出保持一致(如 FixMatch)

  • 其他:生成式(用 VAE/GAN 建模数据分布)、图传播(在样本相似图上传播标签)

  • 前提:无标注数据假设须成立——低密度分隔、聚类、流形假设,否则可能反伤性能

标准回答

设定与目标

监督学习介于监督与无监督之间:只有少量标注样本,但有大量无标注样本。目标是利用无标注数据揭示的数据结构,在标注稀缺时仍训出好模型,显著降低标注成本。

常用方法

自训练 / 伪标签:先用标注数据训个模型,给无标注数据打伪标签,保留高置信度的样本加入训练集,反复迭代。简单有效但会放大早期错误。

一致性正则:对无标注样本做数据增强或加噪,要求模型对扰动前后输出一致(如 Π-Model、Mean Teacher、FixMatch 把伪标签与强增强一致性结合),是当前主流强基线。

生成式方法:用 VAE/GAN 等建模整体数据分布,让无标注数据帮助学到更好的表示。

图方法:构建样本相似度图,在图上把标签从有标注节点传播到无标注节点。

关键前提

这些方法依赖无标注假设成立——同簇/同流形样本同类、决策边界落在低密度区。若假设不成立,无标注数据反而可能损害性能。

常见误区

⚠️ 常见踩坑

无条件相信无标注数据总能涨点——半监督有效的前提是数据满足聚类/低密度/流形假设;伪标签若不做置信度筛选与去偏,错误标签会自我强化(确认偏差),反而拖垮模型。

追问

追问 1半监督学习和自监督学习有什么区别?

自监督完全不用人工标签,靠构造预训练任务(如掩码预测、对比学习)从无标注数据学通用表示,再迁移到下游。半监督则同时使用少量真实标注和大量无标注数据,直接面向目标任务训练。二者可结合:先自监督预训练,再用少量标注做半监督/微调,是当前数据高效学习的常见范式。

追问 2FixMatch 的核心思想是什么?

FixMatch 把伪标签和一致性正则结合:对无标注样本做弱增强得到预测,仅当其最大置信度超过阈值时取为伪标签;再对同一样本做强增强,要求强增强下的预测匹配这个伪标签。高置信度阈值保证伪标签质量,弱-强增强配对提供一致性约束,简洁却在多个基准上达到很强效果。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。