核心要点

  • 先确定核心指标(如转化率)并写出原假设 H0(两组无差异)与备择假设 H1。

  • 选检验方法:比例/转化率用 z 检验或卡方,连续均值用双样本 t 检验。

  • 看 p 值是否小于显著性水平 α(常用 0.05),并结合置信区间判断效应方向与大小。

  • 事前估算样本量与功效,避免提前看数(peeking)和多重比较带来的假阳性。

标准回答

判断流程

A/B 测试本质是一次假设检验。先把要优化的核心指标固定下来(如点击率、转化率),写出原假设 H0:实验组与对照组无差异;备择假设 H1:存在差异。

选对检验方法

  • 转化率、点击率等比例型指标:用双样本 z 检验或卡方检验。
  • 客单价、停留时长等连续型指标:用双样本 t 检验。
  • 计算检验统计量后得到 p 值。

下结论

若 p < α(如 0.05),拒绝 H0,认为差异统计显著;同时看效应量的置信区间,确认提升方向与幅度是否有业务价值。p 值小不等于效应大。

必须注意

实验前用功效分析估算所需样本量(功效一般取 0.8),样本不足易漏检;运行中不要反复看数提前停止(peeking 会抬高假阳性);同时测多个指标要做多重比较校正(如 Bonferroni)。

常见误区

⚠️ 常见踩坑

把 p < 0.05 直接当成「效果大」——p 值只反映差异是否随机,效应大小要看置信区间;以及一看到显著就停止实验,造成偷看数据导致的假阳性。

追问

追问 1为什么不能每天盯着结果,一显著就停?

这叫 peeking(提前看数)。每多看一次就多一次犯第一类错误的机会,反复看会让实际假阳性率远高于名义 α。应预先固定样本量/实验时长,或采用序贯检验、贝叶斯方法等专门控制提前停止误差的框架。

追问 2样本量和统计功效是什么关系?

功效(power)是真有差异时能检测出来的概率,等于 1 减去第二类错误率。在 α、最小可检测效应固定时,样本量越大功效越高。功效不足时即使存在真实提升也常得到不显著结论,所以要在实验前做功效分析反推所需样本量。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。