核心要点

  • 协方差 Cov(X,Y)=E[(X-μ_X)(Y-μ_Y)],衡量两变量同向/反向变动,带量纲,取值范围无界。

  • 相关系数 ρ=Cov(X,Y)/(σ_X·σ_Y),是协方差对标准差的归一化,无量纲,范围固定在 [-1,1]。

  • 量纲敏感性:对变量做线性缩放,协方差随之改变,但相关系数不变——所以跨变量比较强弱要用相关系数。

  • 二者都只刻画线性关系:ρ=0 仅表示无线性相关,不代表独立(可能有强非线性关系)。

标准回答

定义差异

协方差 (Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]) 度量两个变量是否同向变动:正值同向、负值反向、接近 0 表示无线性关联。但它带有 X 与 Y 单位的乘积量纲,数值大小受尺度影响,无法直接判断相关强弱。

相关系数(Pearson)(\rho=\dfrac{Cov(X,Y)}{\sigma_X\sigma_Y}) 是用两者标准差对协方差做归一化的结果,因此无量纲、严格落在 ([-1,1]) 区间,(|\rho|) 越接近 1 线性关系越强。

关键区别

  • 量纲:协方差有量纲,相关系数无量纲。
  • 范围:协方差无界,相关系数限定 ([-1,1])。
  • 尺度不变性:相关系数对线性缩放不变,协方差不是。

共同局限

两者都只测线性相关。(\rho=0) 不等于独立,例如 (Y=X^2)(X 对称分布)线性相关为 0 但显然不独立。

常见误区

⚠️ 常见踩坑

把相关系数为 0 等同于变量独立——它只说明没有线性相关,非线性依赖仍可能很强;独立可推出 ρ=0,反之不成立。

追问

追问 1相关系数为 0 一定意味着两个变量独立吗?

不一定。(\rho=0) 只说明没有线性相关。独立是更强的条件(联合分布等于边际分布之积),独立必然 (\rho=0),但 (\rho=0) 推不出独立。典型反例 (Y=X^2):当 X 关于 0 对称分布时线性相关为 0,但 Y 完全由 X 决定。要捕捉非线性依赖可用互信息或距离相关。

追问 2为什么相关系数能被限制在 [-1,1] 之间?

由 Cauchy-Schwarz 不等式 (|Cov(X,Y)|\le\sigma_X\sigma_Y),两边除以 (\sigma_X\sigma_Y) 即得 (|\rho|\le 1)。等号当且仅当 X、Y 之间存在完全线性关系 (Y=aX+b) 时成立,(a>0) 取 +1、(a<0) 取 -1。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。