标准回答
根本区别
二者的区别在于建模目标。
生成式模型学习联合概率分布 P(x,y),通常拆为 P(x|y)P(y)。它刻画了"数据是如何生成的",因此既能用贝叶斯公式反推 P(y|x) 做分类,也能从分布中采样生成新样本。代表模型:朴素贝叶斯、高斯混合模型(GMM)、隐马尔可夫模型(HMM),以及现代的 GAN、扩散模型。
判别式模型直接学习条件概率 P(y|x) 或决策边界,不关心 x 本身的分布,只回答"给定 x,y 是什么"。代表模型:逻辑回归、SVM、决策树、神经网络分类器。
权衡
在纯分类任务上,判别式模型通常精度更高,因为它把全部建模能力都用在决策边界上,不浪费在拟合 P(x) 上。生成式模型在样本量较少时收敛更快(更快逼近渐近误差),且天然支持缺失值处理、异常检测和数据生成。Ng & Jordan 的经典分析指出:朴素贝叶斯小样本占优,逻辑回归大样本占优。
常见误区
⚠️ 常见踩坑
"生成式更强大/更准"是误解;分类精度上判别式通常更优。生成式能采样不代表分类一定好,反之 SVM 无法生成数据但分类很强。
追问
追问 1:朴素贝叶斯和逻辑回归是什么关系?
它们是一对生成-判别对应:朴素贝叶斯(生成式)建模 P(x|y)P(y),逻辑回归(判别式)建模 P(y|x)。在朴素贝叶斯假设成立时二者渐近一致,但逻辑回归不依赖特征条件独立假设,大样本下分类误差更低。
追问 2:为什么生成式模型能做异常检测?
生成式模型显式建模了数据分布 P(x),对新样本可直接计算其似然或概率密度。落在低密度区域(似然很低)的样本即被判为异常,而判别式模型没有 P(x) 的概念,需额外手段才能做异常检测。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。