Bootstrap 重采样如何估计统计量的不确定性？

Q: .632 自助法里的 0.632 是怎么来的？

一次有放回抽 n 次，某个样本一次都没被抽中的概率是 $(1-1/n)^n$，当 n 较大时趋于 $e^{-1}\approx 0.368$。所以平均约 63.2% 的样本会出现在 bootstrap 训练集里，剩下约 36.8% 作为袋外（OOB）样本用于评估。.632 自助法据此对训练误差与 OOB 误差加权来校正乐观偏差。

Question 1

Accepted Answer

基本流程 Bootstrap 是一种不依赖分布假设的重采样方法，用来估计任意统计量的不确定性： 1. 从大小为 n 的原样本中有放回地抽 n 个观测，构成一个 bootstrap 样本（有的点重复、有的缺失）。 2. 在该样本上计算目标统计量 $\hat\theta^*$（如均值、中位数、AUC）。 3. 重复 B 次（常取 B=1000~10000），得到 $\hat\theta^*_1,\dots,\hat\theta^*_B$。 估计不确定性 这 B 个取值近似了 $\hat\theta$ 的抽样分布，于是： - 标准误：取这 B 个值的标准差。 - 置信区间：用百分位法取分位数，如 95% 区间对应 $[Q_{2.5\%}, Q_{97.5\%}]$。 为什么有效 它把经验分布（原样本）当作总体的近似，用计算代替解析推导，因此对没有封闭方差公式的统计量同样适用，也不需要正态性假设。

Question 2

Bootstrap 和交叉验证有什么区别？

Accepted Answer

两者都靠重采样，但目的不同。Bootstrap 是有放回抽样、主要用于估计统计量的抽样分布、标准误与置信区间；交叉验证是无放回地把数据划分为不重叠的折，用于评估模型的泛化误差与选择超参数。Bootstrap 训练集会有重复样本（约 63.2% 唯一），CV 每折内样本互斥。

Question 3

.632 自助法里的 0.632 是怎么来的？

Accepted Answer

一次有放回抽 n 次，某个样本一次都没被抽中的概率是 $(1-1/n)^n$，当 n 较大时趋于 $e^{-1}\approx 0.368$。所以平均约 63.2% 的样本会出现在 bootstrap 训练集里，剩下约 36.8% 作为袋外（OOB）样本用于评估。.632 自助法据此对训练误差与 OOB 误差加权来校正乐观偏差。

Bootstrap 重采样如何估计统计量的不确定性？

核心要点

标准回答

常见误区

追问

延伸学习