核心要点

  • 功效 = 1−β = 在 H₁ 为真时正确拒绝 H₀ 的概率,行业常以 0.8 为目标

  • 影响因素:效应量↑、样本量 n↑、α↑、方差↓ 都使功效↑

  • 能据此反推样本量:给定效应量 δ、α 与目标功效,解出所需 n

  • 功效不足时阴性结果不可解读为「无效应」,只能说证据不足

标准回答

定义:在 H₁ 为真时,检验拒绝 H₀ 的概率 = 1 − β(β 为 II 类错误 率)。

影响因素(功效↑当):

  • 效应量 ↑(差异更明显)
  • 样本量 n
  • 显著性水平 α ↑(更宽松阈值)
  • 方差 σ² ↓(噪声更小)
  • 单侧检验(相对双侧,同 α 下功效更高)

功效分析用途

  1. 实验设计A/B 测试需多少用户才能检出 δ 提升?
  2. 事后解释:阴性结果可能是功效不足而非无效应
  3. 元分析:合并研究考虑各研究功效

工具:G*Power、statsmodels.stats.powerpwr(R)。

置信区间 宽度互补:窄 CI + 高功效才更有说服力。

常见误区

⚠️ 常见踩坑

把「结果不显著」直接当作「无效应」——很可能是功效不足(n 太小或效应小)导致漏检,而非真的没有差异。另一误区:用观测数据算「事后功效」来解释不显著,这与 p 值信息重复、属循环论证;正确做法是在实验前基于最小可检测效应做样本量规划

追问

追问 1α 和 β 的权衡是什么?

固定 n 和效应,降低 α(更严)会降低功效、增大 β。Neyman-Pearson 框架在约束 α 下最大化功效。实践中常先定 α=0.05 再算所需 n。

追问 2事后功效(post-hoc power)有什么问题?

观测到不显著后算功效常是循环论证(与 p 值信息重复)。更有用的是事前样本量计算或报告置信区间。

追问 3ML 实验里的 power 怎么理解?

可类比:检出「模型 B 优于 A」的概率。需设定最小可接受提升 δ、重复次数、检验方法;否则容易因验证集太小而结论不稳。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。