核心要点
先确定核心指标(如转化率)并写出原假设 H0(两组无差异)与备择假设 H1。
选检验方法:比例/转化率用 z 检验或卡方,连续均值用双样本 t 检验。
看 p 值是否小于显著性水平 α(常用 0.05),并结合置信区间判断效应方向与大小。
事前估算样本量与功效,避免提前看数(peeking)和多重比较带来的假阳性。
标准回答
判断流程
A/B 测试本质是一次假设检验。先把要优化的核心指标固定下来(如点击率、转化率),写出原假设 H0:实验组与对照组无差异;备择假设 H1:存在差异。
选对检验方法
- 转化率、点击率等比例型指标:用双样本 z 检验或卡方检验。
- 客单价、停留时长等连续型指标:用双样本 t 检验。
- 计算检验统计量后得到 p 值。
下结论
若 p < α(如 0.05),拒绝 H0,认为差异统计显著;同时看效应量的置信区间,确认提升方向与幅度是否有业务价值。p 值小不等于效应大。
必须注意
实验前用功效分析估算所需样本量(功效一般取 0.8),样本不足易漏检;运行中不要反复看数提前停止(peeking 会抬高假阳性);同时测多个指标要做多重比较校正(如 Bonferroni)。
常见误区
⚠️ 常见踩坑
把 p < 0.05 直接当成「效果大」——p 值只反映差异是否随机,效应大小要看置信区间;以及一看到显著就停止实验,造成偷看数据导致的假阳性。
追问
追问 1:为什么不能每天盯着结果,一显著就停?
这叫 peeking(提前看数)。每多看一次就多一次犯第一类错误的机会,反复看会让实际假阳性率远高于名义 α。应预先固定样本量/实验时长,或采用序贯检验、贝叶斯方法等专门控制提前停止误差的框架。
追问 2:样本量和统计功效是什么关系?
功效(power)是真有差异时能检测出来的概率,等于 1 减去第二类错误率。在 α、最小可检测效应固定时,样本量越大功效越高。功效不足时即使存在真实提升也常得到不显著结论,所以要在实验前做功效分析反推所需样本量。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。