半监督学习有哪些常用方法？

Question 1

半监督学习有哪些常用方法？

Accepted Answer

设定与目标 半监督学习介于监督与无监督之间：只有少量标注样本，但有大量无标注样本。目标是利用无标注数据揭示的数据结构，在标注稀缺时仍训出好模型，显著降低标注成本。 常用方法 自训练 / 伪标签：先用标注数据训个模型，给无标注数据打伪标签，保留高置信度的样本加入训练集，反复迭代。简单有效但会放大早期错误。 一致性正则：对无标注样本做数据增强或加噪，要求模型对扰动前后输出一致（如 Π-Model、Mean Teacher、FixMatch 把伪标签与强增强一致性结合），是当前主流强基线。 生成式方法：用 VAE/GAN 等建模整体数据分布，让无标注数据帮助学到更好的表示。 图方法：构建样本相似度图，在图上把标签从有标注节点传播到无标注节点。 关键前提 这些方法依赖无标注假设成立——同簇/同流形样本同类、决策边界落在低密度区。若假设不成立，无标注数据反而可能损害性能。

Question 2

半监督学习和自监督学习有什么区别？

Accepted Answer

自监督完全不用人工标签，靠构造预训练任务（如掩码预测、对比学习）从无标注数据学通用表示，再迁移到下游。半监督则同时使用少量真实标注和大量无标注数据，直接面向目标任务训练。二者可结合：先自监督预训练，再用少量标注做半监督/微调，是当前数据高效学习的常见范式。

Question 3

FixMatch 的核心思想是什么？

Accepted Answer

FixMatch 把伪标签和一致性正则结合：对无标注样本做弱增强得到预测，仅当其最大置信度超过阈值时取为伪标签；再对同一样本做强增强，要求强增强下的预测匹配这个伪标签。高置信度阈值保证伪标签质量，弱-强增强配对提供一致性约束，简洁却在多个基准上达到很强效果。

半监督学习有哪些常用方法？

核心要点

标准回答

常见误区

追问

延伸学习