A/B 测试如何判断结果是否统计显著？

Q: 为什么不能每天盯着结果，一显著就停？

这叫 peeking（提前看数）。每多看一次就多一次犯第一类错误的机会，反复看会让实际假阳性率远高于名义 α。应预先固定样本量/实验时长，或采用序贯检验、贝叶斯方法等专门控制提前停止误差的框架。

Q: 样本量和统计功效是什么关系？

功效（power）是真有差异时能检测出来的概率，等于 1 减去第二类错误率。在 α、最小可检测效应固定时，样本量越大功效越高。功效不足时即使存在真实提升也常得到不显著结论，所以要在实验前做功效分析反推所需样本量。

Question 1

A/B 测试如何判断结果是否统计显著？

Accepted Answer

判断流程 A/B 测试本质是一次假设检验。先把要优化的核心指标固定下来（如点击率、转化率），写出原假设 H0：实验组与对照组无差异；备择假设 H1：存在差异。 选对检验方法 - 转化率、点击率等比例型指标：用双样本 z 检验或卡方检验。 - 客单价、停留时长等连续型指标：用双样本 t 检验。 - 计算检验统计量后得到 p 值。 下结论 若 p < α（如 0.05），拒绝 H0，认为差异统计显著；同时看效应量的置信区间，确认提升方向与幅度是否有业务价值。p 值小不等于效应大。 必须注意 实验前用功效分析估算所需样本量（功效一般取 0.8），样本不足易漏检；运行中不要反复看数提前停止（peeking 会抬高假阳性）；同时测多个指标要做多重比较校正（如 Bonferroni）。

Question 2

为什么不能每天盯着结果，一显著就停？

Accepted Answer

这叫 peeking（提前看数）。每多看一次就多一次犯第一类错误的机会，反复看会让实际假阳性率远高于名义 α。应预先固定样本量/实验时长，或采用序贯检验、贝叶斯方法等专门控制提前停止误差的框架。

Question 3

样本量和统计功效是什么关系？

Accepted Answer

功效（power）是真有差异时能检测出来的概率，等于 1 减去第二类错误率。在 α、最小可检测效应固定时，样本量越大功效越高。功效不足时即使存在真实提升也常得到不显著结论，所以要在实验前做功效分析反推所需样本量。

A/B 测试如何判断结果是否统计显著？

核心要点

标准回答

常见误区

追问

延伸学习