核心要点

  • 准确定义:p 值 = 在 H₀ 为真的前提下,观测到当前或更极端检验统计量的概率

  • p<α 时拒绝 H₀ 称「统计显著」,但显著 ≠ 效应大、≠ 有实际意义

  • p 值不是 P(H₀ 为真),也不是 P(结果由偶然导致);要得到 H₀ 的概率需贝叶斯先验

  • 小 p 值只说明数据与 H₀ 不一致,必须配合效应量与置信区间一起解读

标准回答

定义:在 H₀ 成立的假设下,检验统计量达到观测值或更极端的概率。

决策规则:若 p < α(常 0.05),拒绝 H₀,称结果统计显著

正确理解

  • p 值小 → 数据与 H₀ 不一致(在 H₀ 下罕见)
  • 不是 P(H₀ 真 | 数据)——那是贝叶斯后验,需先验

p 值不能告诉你

  1. 效应大小(需置信区间、Cohen's d)
  2. 结果可重复
  3. 因果关系
  4. H₀ 为真的概率

滥用:p-hacking、多重比较不校正、把 p=0.049 与 p=0.051 截然对立。

延伸阅读:置信区间、概率论基础

常见误区

⚠️ 常见踩坑

把 p 值说成「H0 为真的概率」;忽略效应量与样本量;仅报告 p 不报告 CI。

追问

追问 1p-value 和置信区间有什么关系?

二者对偶:双侧 α 检验拒绝某参数值 ⇔ 该值落在 1−α 置信区间之外。p<0.05 等价于 95% CI 不含 H₀ 假设值(如均值差为 0)。CI 还额外给出效应大小与方向,信息比单个 p 值更丰富。

追问 2多重比较时 p 值如何处理?

同时做多个检验会抬高至少一次假阳性的概率。控制族错误率可用 Bonferroni(α/m,保守)或 Holm 法;大规模检验(如基因组)改控假发现率 FDR,用 Benjamini-Hochberg,比 Bonferroni 更有功效。

追问 3贝叶斯方法和 p 值有何不同?

p 值是频率派量,回答「在 H₀ 下数据有多极端」;贝叶斯直接给出 P(H₀|数据) 或后验分布,但需指定先验。贝叶斯因子比较两假设的证据强度,可同时支持 H₀,而 p 值只能「拒绝/不拒绝」,不能为 H₀ 提供正面证据。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。