核心要点
分布完整刻画随机变量取各值(或区间)的概率规律,由 PMF/PDF 或 CDF 给出
能按场景选分布:成功/失败→Bernoulli/Binomial,计数→Poisson,等待时间→Exponential,测量误差→Normal
能说出分布的数字特征:期望(中心)、方差(散布),以及参数如何决定形状
区分离散(单点概率>0)与连续(单点概率=0,靠密度积分)
标准回答
分布完整刻画随机变量 X 的不确定性:通过 PMF/PDF 或 CDF。
常见分布:
| 分布 | 类型 | 典型场景 |
|---|---|---|
| Bernoulli/Binomial | 离散 | 成功/失败、转化率 |
| Poisson | 离散 | 单位时间事件计数 |
| Normal | 连续 | 测量误差、样本均值近似 |
| Uniform | 连续 | 等可能随机数 |
| Exponential | 连续 | 等待时间、无记忆性 |
| Beta | 连续 | 概率的先验 [0,1] |
| Gamma/Chi-square | 连续 | 等待时间之和、方差检验 |
数字特征:期望(中心)、方差(散布)、偏度、峰度。
ML:损失函数常对应分布假设(MSE↔高斯、交叉熵↔分类);生成模型学习数据分布。
系统复习:概率论基础。
常见误区
⚠️ 常见踩坑
凭直觉默认数据「应该」服从正态而不验证,对计数、比例或重尾数据强套正态。另一误区:混淆概率分布(理论模型)与样本的经验分布(直方图/ECDF)——前者是带参数的总体规律,后者是有限数据的呈现,二者一致性需用 K-S 或卡方拟合优度检验来判断。
追问
追问 1:如何选择合适的分布建模数据?
看变量类型(计数/连续/有界)、QQ 图、直方图、领域知识。计数用 Poisson/负二项;正偏等待时间用 Exponential/Weibull;比例用 Beta/Binomial。
追问 2:联合分布和边缘分布是什么?
联合分布描述多个随机变量一起的行为;边缘分布对其它变量积分/求和得到。独立时联合 = 边缘之积。
追问 3:经验分布和理论分布有何区别?
经验分布直接来自数据(ECDF、直方图);理论分布带参数形式。K-S 检验、卡方拟合优度比较数据与理论分布是否一致。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。