核心要点
总体=研究对象全体及其分布参数(μ、σ、p,固定未知);样本=抽取的子集,用统计量(x̄、s、p̂)估计
统计量是随机变量(随样本而变),参数是固定常数;二者切勿混用符号
能说明随机抽样为何重要:避免抽样偏差,使样本代表总体
理解抽样偏差(幸存者、自选择)无法靠增大 n 消除,只能改进抽样设计
简要回答
| 总体 Population | 样本 Sample | |
|---|---|---|
| 定义 | 研究目标的全体 | 总体的一部分观测 |
| 描述量 | 参数 μ, σ, p | 统计量 x̄, s, p̂ |
| 是否可得 | 通常未知 | 观测可得 |
目标:用样本统计量推断总体参数(点估计、区间估计、假设检验);
关键假设:
- 随机抽样:减少选择偏差
- 样本量:越大估计越稳(大数定律保证 x̄ 收敛到 μ)
- 独立同分布(i.i.d.)常作为理论起点
AI 语境:训练集可视为从数据生成过程抽样的「样本」
标准回答
| 总体 Population | 样本 Sample | |
|---|---|---|
| 定义 | 研究目标的全体 | 总体的一部分观测 |
| 描述量 | 参数 μ, σ, p | 统计量 x̄, s, p̂ |
| 是否可得 | 通常未知 | 观测可得 |
目标:用样本统计量推断总体参数(点估计、区间估计、假设检验)。
关键假设:
- 随机抽样:每个个体有已知非零入样概率,减少选择偏差
- 样本量:越大估计越稳(大数定律保证 x̄ 收敛到 μ)
- 独立同分布(i.i.d.)常作为理论起点
AI 语境:训练集可视为从数据生成过程抽样的「样本」;测试集评估泛化到「总体」分布的性能。分布偏移 = 样本不再代表目标总体。
常见误区
⚠️ 常见踩坑
混淆参数与统计量:把样本均值 x̄ 当成总体均值 μ,或对固定参数说「概率」——参数不是随机变量,随机的是样本统计量。另一误区:以为增大样本量能修正抽样偏差;偏差来自抽样方式(如只调查线上用户),加大 n 只会更精确地估出一个错误的值。
追问
追问 1:参数和统计量举例说明?
总体均值 μ 是参数;样本均值 x̄ 是统计量。总体比例 p vs 样本比例 p̂。统计量是随机变量(随样本变),参数是固定未知常数。
追问 2:什么是抽样偏差?
样本不能代表总体,如只调查线上用户推断全体、幸存者偏差、自愿回应偏差。偏差无法靠增大样本消除,需改进抽样设计。
追问 3:有限总体修正何时需要?
当无放回抽样且样本占总体比例较大(经验上 n/N > 5%)时,标准误需乘有限总体修正因子 √((N−n)/(N−1)),否则会高估方差。总体很大或抽样比很小时该因子接近 1,可忽略。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📚 知识库
📖 术语表
📰 AI 资讯