简要回答
描述统计(Descriptive)——「数据说了什么」:
- 集中趋势:均值、中位数、众数
- 离散:方差、标准差、IQR
- 可视化:直方图、箱线图、散点图
- 不超出样本本身
推断统计(Inferential)——「样本能推广什么」:
- 参数估计:点估计 + 置信区间
- 假设检验:p 值、显著性
- 回归与建模:预测 + 推断系数
- 需要抽样假设、样本量、显著性水平
| 描述 | 推断 |
|---|---|
| 样本均值 x̄ | 推断总体 μ |
| 样本比例 | 推断总体比例 |
| 无概率陈述 | 有置信度/显著性 |
数据科学工作流:EDA(描述)→ 建模(推断/预测)→ 验证;见 概率论基础
标准回答
描述统计(Descriptive)——「数据说了什么」:
- 集中趋势:均值、中位数、众数
- 离散:方差、标准差、IQR
- 可视化:直方图、箱线图、散点图
- 不超出样本本身
推断统计(Inferential)——「样本能推广什么」:
- 参数估计:点估计 + 置信区间
- 假设检验:p 值、显著性
- 回归与建模:预测 + 推断系数
- 需要抽样假设、样本量、显著性水平
| 描述 | 推断 |
|---|---|
| 样本均值 x̄ | 推断总体 μ |
| 样本比例 | 推断总体比例 |
| 无概率陈述 | 有置信度/显著性 |
数据科学工作流:EDA(描述)→ 建模(推断/预测)→ 验证。见 概率论基础。
常见误区
⚠️ 常见踩坑
把对一个便利样本算出的描述统计当成总体结论而不加任何不确定性说明——这其实是在做推断却跳过了置信区间与抽样假设。另一误区:以为「数据量大就只需描述统计」,但分布漂移、因果与反事实问题仍需推断框架,且大数据往往本身就是带偏的采样(日志、用户子集)。
追问
追问 1:探索性数据分析 EDA 属于哪类?
主要是描述统计,但指导后续推断/建模假设(分布形态、异常值、缺失)。EDA 不直接做总体推广,但为推断打基础。
追问 2:预测和推断有什么区别?
推断关注参数/因果解释(β 是否显著);预测关注新观测 ŷ 的准确度。高预测精度不一定有可解释推断,反之亦然。
追问 3:大数据时代描述统计还不够吗?
全量数据时某些「总体参数」可直接计算,但仍有分布漂移、因果、反事实问题需推断框架;且很多场景本质上仍是样本(日志采样、用户子集)。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。