核心要点
功效 = 1−β = 在 H₁ 为真时正确拒绝 H₀ 的概率,行业常以 0.8 为目标
影响因素:效应量↑、样本量 n↑、α↑、方差↓ 都使功效↑
能据此反推样本量:给定效应量 δ、α 与目标功效,解出所需 n
功效不足时阴性结果不可解读为「无效应」,只能说证据不足
常见误区
⚠️ 常见踩坑
把「结果不显著」直接当作「无效应」——很可能是功效不足(n 太小或效应小)导致漏检,而非真的没有差异。另一误区:用观测数据算「事后功效」来解释不显著,这与 p 值信息重复、属循环论证;正确做法是在实验前基于最小可检测效应做样本量规划。
追问
追问 1:α 和 β 的权衡是什么?
固定 n 和效应,降低 α(更严)会降低功效、增大 β。Neyman-Pearson 框架在约束 α 下最大化功效。实践中常先定 α=0.05 再算所需 n。
追问 2:事后功效(post-hoc power)有什么问题?
观测到不显著后算功效常是循环论证(与 p 值信息重复)。更有用的是事前样本量计算或报告置信区间。
追问 3:ML 实验里的 power 怎么理解?
可类比:检出「模型 B 优于 A」的概率。需设定最小可接受提升 δ、重复次数、检验方法;否则容易因验证集太小而结论不稳。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。