核心要点
协方差 Cov(X,Y)=E[(X-μ_X)(Y-μ_Y)],衡量两变量同向/反向变动,带量纲,取值范围无界。
相关系数 ρ=Cov(X,Y)/(σ_X·σ_Y),是协方差对标准差的归一化,无量纲,范围固定在 [-1,1]。
量纲敏感性:对变量做线性缩放,协方差随之改变,但相关系数不变——所以跨变量比较强弱要用相关系数。
二者都只刻画线性关系:ρ=0 仅表示无线性相关,不代表独立(可能有强非线性关系)。
标准回答
定义差异
协方差 (Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]) 度量两个变量是否同向变动:正值同向、负值反向、接近 0 表示无线性关联。但它带有 X 与 Y 单位的乘积量纲,数值大小受尺度影响,无法直接判断相关强弱。
相关系数(Pearson)(\rho=\dfrac{Cov(X,Y)}{\sigma_X\sigma_Y}) 是用两者标准差对协方差做归一化的结果,因此无量纲、严格落在 ([-1,1]) 区间,(|\rho|) 越接近 1 线性关系越强。
关键区别
- 量纲:协方差有量纲,相关系数无量纲。
- 范围:协方差无界,相关系数限定 ([-1,1])。
- 尺度不变性:相关系数对线性缩放不变,协方差不是。
共同局限
两者都只测线性相关。(\rho=0) 不等于独立,例如 (Y=X^2)(X 对称分布)线性相关为 0 但显然不独立。
常见误区
⚠️ 常见踩坑
把相关系数为 0 等同于变量独立——它只说明没有线性相关,非线性依赖仍可能很强;独立可推出 ρ=0,反之不成立。
追问
追问 1:相关系数为 0 一定意味着两个变量独立吗?
不一定。(\rho=0) 只说明没有线性相关。独立是更强的条件(联合分布等于边际分布之积),独立必然 (\rho=0),但 (\rho=0) 推不出独立。典型反例 (Y=X^2):当 X 关于 0 对称分布时线性相关为 0,但 Y 完全由 X 决定。要捕捉非线性依赖可用互信息或距离相关。
追问 2:为什么相关系数能被限制在 [-1,1] 之间?
由 Cauchy-Schwarz 不等式 (|Cov(X,Y)|\le\sigma_X\sigma_Y),两边除以 (\sigma_X\sigma_Y) 即得 (|\rho|\le 1)。等号当且仅当 X、Y 之间存在完全线性关系 (Y=aX+b) 时成立,(a>0) 取 +1、(a<0) 取 -1。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。