核心要点
准确定义:p 值 = 在 H₀ 为真的前提下,观测到当前或更极端检验统计量的概率
p<α 时拒绝 H₀ 称「统计显著」,但显著 ≠ 效应大、≠ 有实际意义
p 值不是 P(H₀ 为真),也不是 P(结果由偶然导致);要得到 H₀ 的概率需贝叶斯先验
小 p 值只说明数据与 H₀ 不一致,必须配合效应量与置信区间一起解读
标准回答
定义:在 H₀ 成立的假设下,检验统计量达到观测值或更极端的概率。
决策规则:若 p < α(常 0.05),拒绝 H₀,称结果统计显著。
正确理解:
- p 值小 → 数据与 H₀ 不一致(在 H₀ 下罕见)
- 不是 P(H₀ 真 | 数据)——那是贝叶斯后验,需先验
p 值不能告诉你:
- 效应大小(需置信区间、Cohen's d)
- 结果可重复性
- 因果关系
- H₀ 为真的概率
滥用:p-hacking、多重比较不校正、把 p=0.049 与 p=0.051 截然对立。
延伸阅读:置信区间、概率论基础。
常见误区
⚠️ 常见踩坑
把 p 值说成「H0 为真的概率」;忽略效应量与样本量;仅报告 p 不报告 CI。
追问
追问 1:p-value 和置信区间有什么关系?
二者对偶:双侧 α 检验拒绝某参数值 ⇔ 该值落在 1−α 置信区间之外。p<0.05 等价于 95% CI 不含 H₀ 假设值(如均值差为 0)。CI 还额外给出效应大小与方向,信息比单个 p 值更丰富。
追问 2:多重比较时 p 值如何处理?
同时做多个检验会抬高至少一次假阳性的概率。控制族错误率可用 Bonferroni(α/m,保守)或 Holm 法;大规模检验(如基因组)改控假发现率 FDR,用 Benjamini-Hochberg,比 Bonferroni 更有功效。
追问 3:贝叶斯方法和 p 值有何不同?
p 值是频率派量,回答「在 H₀ 下数据有多极端」;贝叶斯直接给出 P(H₀|数据) 或后验分布,但需指定先验。贝叶斯因子比较两假设的证据强度,可同时支持 H₀,而 p 值只能「拒绝/不拒绝」,不能为 H₀ 提供正面证据。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。