核心要点
设定:少量标注 + 大量无标注数据,目标是用无标注数据提升模型,降低标注成本
自训练/伪标签:用已有模型给无标注数据打伪标签,挑高置信度的加入训练,迭代提升
一致性正则:对同一无标注样本施加扰动/增强,约束模型输出保持一致(如 FixMatch)
其他:生成式(用 VAE/GAN 建模数据分布)、图传播(在样本相似图上传播标签)
前提:无标注数据假设须成立——低密度分隔、聚类、流形假设,否则可能反伤性能
标准回答
设定与目标
半监督学习介于监督与无监督之间:只有少量标注样本,但有大量无标注样本。目标是利用无标注数据揭示的数据结构,在标注稀缺时仍训出好模型,显著降低标注成本。
常用方法
自训练 / 伪标签:先用标注数据训个模型,给无标注数据打伪标签,保留高置信度的样本加入训练集,反复迭代。简单有效但会放大早期错误。
一致性正则:对无标注样本做数据增强或加噪,要求模型对扰动前后输出一致(如 Π-Model、Mean Teacher、FixMatch 把伪标签与强增强一致性结合),是当前主流强基线。
生成式方法:用 VAE/GAN 等建模整体数据分布,让无标注数据帮助学到更好的表示。
图方法:构建样本相似度图,在图上把标签从有标注节点传播到无标注节点。
关键前提
这些方法依赖无标注假设成立——同簇/同流形样本同类、决策边界落在低密度区。若假设不成立,无标注数据反而可能损害性能。
常见误区
⚠️ 常见踩坑
无条件相信无标注数据总能涨点——半监督有效的前提是数据满足聚类/低密度/流形假设;伪标签若不做置信度筛选与去偏,错误标签会自我强化(确认偏差),反而拖垮模型。
追问
追问 1:半监督学习和自监督学习有什么区别?
追问 2:FixMatch 的核心思想是什么?
FixMatch 把伪标签和一致性正则结合:对无标注样本做弱增强得到预测,仅当其最大置信度超过阈值时取为伪标签;再对同一样本做强增强,要求强增强下的预测匹配这个伪标签。高置信度阈值保证伪标签质量,弱-强增强配对提供一致性约束,简洁却在多个基准上达到很强效果。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。