核心要点

  • 生成式:建模联合分布 P(x,y)(或 P(x|y)P(y)),可反推 P(y|x) 并能采样生成数据

  • 判别式:直接建模条件分布 P(y|x) 或决策边界,只为分类/回归服务

  • 代表:生成式有朴素贝叶斯、GMM、HMM;判别式有逻辑回归、SVM神经网络

  • 权衡:判别式分类精度通常更高;生成式样本少时收敛快、能处理缺失数据与异常检测

标准回答

根本区别

二者的区别在于建模目标。

生成式模型学习联合概率分布 P(x,y),通常拆为 P(x|y)P(y)。它刻画了"数据是如何生成的",因此既能用贝叶斯公式反推 P(y|x) 做分类,也能从分布中采样生成新样本。代表模型:朴素贝叶斯、高斯混合模型(GMM)、隐马尔可夫模型(HMM),以及现代的 GAN扩散模型

判别式模型直接学习条件概率 P(y|x) 或决策边界,不关心 x 本身的分布,只回答"给定 x,y 是什么"。代表模型:逻辑回归、SVM、决策树、神经网络分类器。

权衡

在纯分类任务上,判别式模型通常精度更高,因为它把全部建模能力都用在决策边界上,不浪费在拟合 P(x) 上。生成式模型在样本量较少时收敛更快(更快逼近渐近误差),且天然支持缺失值处理、异常检测和数据生成。Ng & Jordan 的经典分析指出:朴素贝叶斯小样本占优,逻辑回归大样本占优。

常见误区

⚠️ 常见踩坑

"生成式更强大/更准"是误解;分类精度上判别式通常更优。生成式能采样不代表分类一定好,反之 SVM 无法生成数据但分类很强。

追问

追问 1朴素贝叶斯和逻辑回归是什么关系?

它们是一对生成-判别对应:朴素贝叶斯(生成式)建模 P(x|y)P(y),逻辑回归(判别式)建模 P(y|x)。在朴素贝叶斯假设成立时二者渐近一致,但逻辑回归不依赖特征条件独立假设,大样本下分类误差更低。

追问 2为什么生成式模型能做异常检测?

生成式模型显式建模了数据分布 P(x),对新样本可直接计算其似然或概率密度。落在低密度区域(似然很低)的样本即被判为异常,而判别式模型没有 P(x) 的概念,需额外手段才能做异常检测。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。