什么是 p 值？它如何反映统计显著性？

Q: p-value 和置信区间有什么关系？

二者对偶：双侧 α 检验拒绝某参数值 ⇔ 该值落在 1−α 置信区间之外。p<0.05 等价于 95% CI 不含 H₀ 假设值（如均值差为 0）。CI 还额外给出效应大小与方向，信息比单个 p 值更丰富。

Q: 多重比较时 p 值如何处理？

同时做多个检验会抬高至少一次假阳性的概率。控制族错误率可用 Bonferroni（α/m，保守）或 Holm 法；大规模检验（如基因组）改控假发现率 FDR，用 Benjamini-Hochberg，比 Bonferroni 更有功效。

Q: 贝叶斯方法和 p 值有何不同？

p 值是频率派量，回答「在 H₀ 下数据有多极端」；贝叶斯直接给出 P(H₀ 数据) 或后验分布，但需指定先验。贝叶斯因子比较两假设的证据强度，可同时支持 H₀，而 p 值只能「拒绝/不拒绝」，不能为 H₀ 提供正面证据。

Question 1

什么是 p 值？它如何反映统计显著性？

Accepted Answer

定义：在 H₀ 成立的假设下，检验统计量达到观测值或更极端的概率。 决策规则：若 p < α（常 0.05），拒绝 H₀，称结果统计显著。 正确理解： - p 值小 → 数据与 H₀ 不一致（在 H₀ 下罕见） - 不是 P(H₀ 真 数据)——那是贝叶斯后验，需先验 p 值不能告诉你： 1. 效应大小（需置信区间、Cohen's d） 2. 结果可重复性 3. 因果关系 4. H₀ 为真的概率 滥用：p-hacking、多重比较不校正、把 p=0.049 与 p=0.051 截然对立。 延伸阅读：置信区间、概率论基础。

Question 2

p-value 和置信区间有什么关系？

Accepted Answer

二者对偶：双侧 α 检验拒绝某参数值 ⇔ 该值落在 1−α 置信区间之外。p<0.05 等价于 95% CI 不含 H₀ 假设值（如均值差为 0）。CI 还额外给出效应大小与方向，信息比单个 p 值更丰富。

Question 3

多重比较时 p 值如何处理？

Accepted Answer

同时做多个检验会抬高至少一次假阳性的概率。控制族错误率可用 Bonferroni（α/m，保守）或 Holm 法；大规模检验（如基因组）改控假发现率 FDR，用 Benjamini-Hochberg，比 Bonferroni 更有功效。

Question 4

贝叶斯方法和 p 值有何不同？

Accepted Answer

p 值是频率派量，回答「在 H₀ 下数据有多极端」；贝叶斯直接给出 P(H₀ 数据) 或后验分布，但需指定先验。贝叶斯因子比较两假设的证据强度，可同时支持 H₀，而 p 值只能「拒绝/不拒绝」，不能为 H₀ 提供正面证据。

什么是 p 值？它如何反映统计显著性？

核心要点

标准回答

常见误区

追问

延伸学习