核心要点

  • 理解 n 次独立试验、成功概率 p

  • 能写出 PMF 与均值 np、方差 np(1−p)

  • 知道二项检验与 A/B 测试联系

标准回答

设定:进行 n独立试验,每次成功概率 p,成功次数 X ~ Binomial(n, p)

PMFP(X=k) = C(n,k) p^k (1−p)^{n−k}k = 0,1,...,n

数字特征E[X] = npVar(X) = np(1−p)

作用

  1. 比例建模:转化率、点击率、缺陷率
  2. 假设检验:二项精确检验、比例 z 检验(大 n 近似正态)
  3. 置信区间:Wilson score interval 比 Wald 更稳
  4. ML:逻辑回归输出可视为 p,多个 Bernoulli 组成似然

近似:n 大时 Binomial(n,p) ≈ Normal(np, np(1−p));p 小、n 大时 ≈ Poisson(np)。见 概率论基础

常见误区

⚠️ 常见踩坑

忽视二项分布的前提:n 次试验须独立且成功概率 p 恒定;若试验相关或 p 随时间漂移(如用户行为随活动变化),用二项会低估方差。另一误区:小样本下盲目用正态近似比例——当 np 或 n(1−p) 较小时近似失效,应改用二项精确检验或 Wilson 区间而非 Wald 区间。

追问

追问 1Binomial 和 Bernoulli 有什么关系?

Bernoulli(p) 是单次试验(取 0/1),是 n=1 的特例;Binomial(n,p) 是 n 次独立同参数 Bernoulli 之和。即 X=ΣXᵢ,Xᵢ~Bernoulli(p)。因此 E[X]=np、Var(X)=np(1−p) 都由可加性直接得到。

追问 2何时用二项检验而非卡方检验?

单比例 vs 理论值、两比例比较(小样本)用二项/精确 Fisher。多类别拟合优度用卡方。样本量小勿盲目用正态近似。

追问 3负二项分布与二项有何不同?

二项:固定 n 次试验看成功数;负二项:固定成功次数 r,看所需试验次数。过离散计数数据(方差>均值)常用负二项而非二项/Poisson。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。