Naive Bayes（朴素贝叶斯）

就是先算每个类别本来出现的概率，再结合特征出现的频率，最后选最可能的那个类——虽然假设各特征互不影响有点『朴素』，但真的很好用

亦作、亦称：朴素贝叶斯 · NB classifier · NB · 贝叶斯分类器

朴素贝叶斯是最经典的概率分类算法之一，凭借「特征条件独立」的简洁假设，以极低的计算代价实现高效分类。在文本分类与垃圾邮件过滤领域，它至今仍是最受欢迎的基线模型之一。

概述

朴素贝叶斯是一组基于贝叶斯定理的概率监督学习算法，以「特征条件独立」假设得名。

核心公式：P(类别|特征) ∝ P(类别) × ∏ P(特征ᵢ|类别)
预测规则：选取后验概率最大的类别（MAP 决策规则）
训练过程：仅需统计类别先验与特征条件概率，无需迭代优化
适用场景：文本分类、情感分析、医学诊断、实时推荐等
尽管独立性假设在实际中几乎不成立，模型在大量任务上仍表现出惊人的鲁棒性

工作原理

算法分为训练与推断两个阶段，均基于概率统计完成。

训练阶段：从标注数据中估计各类别的先验概率 P(Y=c) 和各特征的条件概率 P(Xᵢ|Y=c)
推断阶段：对新样本，计算所有类别的后验概率，取最大值对应的类别为预测结果
对数技巧：实际计算时取对数将连乘转为求和，避免浮点下溢
拉普拉斯平滑：对训练集中未出现的特征-类别组合加上平滑系数（通常为 1），防止概率为零的极端情况
训练与推断的时间复杂度均为 O(n×d)，n 为样本数，d 为特征维度

主要变体

根据特征的数据分布假设，朴素贝叶斯衍生出三种主流变体。

高斯朴素贝叶斯（Gaussian NB）：假设连续特征服从高斯正态分布，适合鸢尾花分类等连续特征任务
多项式朴素贝叶斯（Multinomial NB）：假设特征为词频或计数，是文本分类和垃圾邮件过滤的首选
伯努利朴素贝叶斯（Bernoulli NB）：假设特征为 0/1 布尔值（词是否出现），适合短文本二值化场景
补集朴素贝叶斯（Complement NB）：对 Multinomial NB 的改进，在类别不平衡数据集上表现更好
选择变体时，关键是判断特征的实际分布类型

应用场景

朴素贝叶斯在多个实际领域中作为高效基线或生产模型使用。

垃圾邮件过滤：早期反垃圾邮件系统的核心算法，至今仍被广泛采用
情感分析与文本分类：基于词袋模型快速完成多类新闻分类、产品评论分析
医学辅助诊断：根据症状/检测指标推算疾病概率
实时推荐与内容过滤：计算代价低，适合大规模在线推断
增量学习：无需重新训练整个模型即可融入新数据，适合数据流场景

与相邻概念的区别

朴素贝叶斯与逻辑回归、决策树等分类算法各有侧重，需根据任务特点选择。

vs 逻辑回归：逻辑回归是判别模型（直接建模 P(Y|X)），朴素贝叶斯是生成模型（建模联合分布），后者在小数据集上收敛更快
vs 决策树：决策树可捕捉特征交互，但朴素贝叶斯训练速度更快且对高维稀疏数据（如文本）更友好
vs SVM：SVM 在中等规模文本任务上通常精度更高，但训练和推断代价也更高
vs 深度学习：深度模型在大数据时精度更高，但朴素贝叶斯在数据稀少、算力有限时往往是更合理的首选
朴素贝叶斯输出的是校准概率，而非仅仅类别标签，便于后续决策

局限与误区

使用朴素贝叶斯前需清楚其固有限制，避免场景误用。

条件独立假设过强：特征高度相关时（如词语搭配、图像像素）分类效果明显下降
零概率问题：若某特征在训练集某类中从未出现，未平滑时后验概率直接归零，需用拉普拉斯平滑解决
无法建模特征交互：对于需要捕捉组合特征的任务（如 XOR 问题）力不从心
误区：朴素就是不准确——实际上在 NLP 基线任务中朴素贝叶斯常与 SVM 精度相当
概率估计偏差：若独立性假设严重违背，输出的概率值本身可能不可信，不宜直接用于风险估算

发展脉络

朴素贝叶斯的历史横跨 250 余年，从概率论奠基到现代机器学习的基石之一。

1763 年：Thomas Bayes 的遗作《An Essay towards solving a Problem in the Doctrine of Chances》由 Richard Price 整理发表，奠定贝叶斯定理基础
1960 年代：朴素贝叶斯作为模式识别工具正式进入机器学习领域，被用于文档分类研究
1990 年代：随互联网兴起，垃圾邮件过滤需求爆发，朴素贝叶斯成为主流反垃圾算法；Paul Graham《A Plan for Spam》（2002）进一步推广了其应用
2000 年代：scikit-learn 等库将其标准化封装，成为机器学习入门必学算法
2010 年代至今：在 NLP 中逐渐被深度学习模型替代，但在数据稀少、实时推断、可解释性要求高的场景中仍被广泛使用

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是先算每个类别本来出现的概率，再结合特征出现的频率，最后选最可能的那个类——虽然假设各特征互不影响有点『朴素』，但真的很好用」
「垃圾邮件过滤里的老功臣，扫一遍邮件里的词频就能判断是不是垃圾邮件，速度极快」
「常见误解是以为『朴素』意味着不靠谱，其实在特征较多、数据量不大的场景里，它的表现经常能打败复杂模型」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Naive Bayes」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

速览

一句话定义: 基于贝叶斯定理并假设特征条件独立的概率分类算法，通过最大化后验概率选择预测类别。
提出: 理论基础源自 Thomas Bayes 1763 年发表的论文《An Essay towards solving a Problem in the Doctrine of Chances》；朴素贝叶斯分类器作为机器学习工具于 1960 年代正式兴起。
关键论文 / 来源: Bayes, T.（1763）《An Essay towards solving a Problem in the Doctrine of Chances》，由 Richard Price 整理发表于 Philosophical Transactions of the Royal Society；现代应用参见 Mitchell, T.（1997）《Machine Learning》第 6 章。

分类

机器学习自然语言处理数学基础