核心要点

  • 分布完整刻画随机变量取各值(或区间)的概率规律,由 PMF/PDF 或 CDF 给出

  • 能按场景选分布:成功/失败→Bernoulli/Binomial,计数→Poisson,等待时间→Exponential,测量误差→Normal

  • 能说出分布的数字特征:期望(中心)、方差(散布),以及参数如何决定形状

  • 区分离散(单点概率>0)与连续(单点概率=0,靠密度积分)

标准回答

分布完整刻画随机变量 X 的不确定性:通过 PMF/PDFCDF

常见分布

分布 类型 典型场景
Bernoulli/Binomial 离散 成功/失败、转化率
Poisson 离散 单位时间事件计数
Normal 连续 测量误差、样本均值近似
Uniform 连续 等可能随机数
Exponential 连续 等待时间、无记忆性
Beta 连续 概率的先验 [0,1]
Gamma/Chi-square 连续 等待时间之和、方差检验

数字特征:期望(中心)、方差(散布)、偏度、峰度。

ML损失函数常对应分布假设(MSE↔高斯、交叉熵↔分类);生成模型学习数据分布。

系统复习:概率论基础

常见误区

⚠️ 常见踩坑

凭直觉默认数据「应该」服从正态而不验证,对计数、比例或重尾数据强套正态。另一误区:混淆概率分布(理论模型)与样本的经验分布(直方图/ECDF)——前者是带参数的总体规律,后者是有限数据的呈现,二者一致性需用 K-S 或卡方拟合优度检验来判断。

追问

追问 1如何选择合适的分布建模数据?

看变量类型(计数/连续/有界)、QQ 图、直方图、领域知识。计数用 Poisson/负二项;正偏等待时间用 Exponential/Weibull;比例用 Beta/Binomial。

追问 2联合分布和边缘分布是什么?

联合分布描述多个随机变量一起的行为;边缘分布对其它变量积分/求和得到。独立时联合 = 边缘之积。

追问 3经验分布和理论分布有何区别?

经验分布直接来自数据(ECDF、直方图);理论分布带参数形式。K-S 检验、卡方拟合优度比较数据与理论分布是否一致。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。