核心要点

  • 互信息 I(X;Y)=H(X)-H(X|Y):观测 Y 后 X 不确定性的平均减少量,即两变量共享的信息。

  • 等价写法 I(X;Y)=KL(p(x,y)||p(x)p(y)):联合分布与边际乘积的 KL 散度,故 I≥0。

  • I(X;Y)=0 当且仅当 X、Y 独立,因此互信息能检测包含非线性在内的任意统计依赖。

  • 对称性 I(X;Y)=I(Y;X),可用于特征选择、表示学习(InfoNCE)、聚类等场景。

标准回答

直觉与定义

互信息度量两个随机变量之间“共享多少信息”:知道一个变量能让另一个变量的不确定性下降多少。

(I(X;Y)=H(X)-H(X\mid Y)=H(Y)-H(Y\mid X))

即 X 的熵减去给定 Y 后 X 的条件熵,差值就是 Y 提供的关于 X 的信息量,且关于 X、Y 对称。

与 KL 的联系

互信息也可写成联合分布与边际乘积之间的 KL 散度:

(I(X;Y)=KL\big(p(x,y),|,p(x)p(y)\big))

由 KL 的非负性立刻得到 (I(X;Y)\ge 0),且 (I(X;Y)=0) 当且仅当 (p(x,y)=p(x)p(y)),也就是 X 与 Y 独立。

为何重要

不同于相关系数只能测线性关系,互信息能捕捉任意形式(含非线性)的依赖,因此广泛用于特征选择、对比学习目标(如 InfoNCE 是互信息下界)和信息瓶颈理论。

常见误区

⚠️ 常见踩坑

互信息没有上界为 1 的归一化(最大值受 min(H(X),H(Y)) 限制),不能像相关系数那样直接比较强弱;连续变量估计互信息对分箱/估计方法很敏感,易高估。

追问

追问 1互信息与相关系数相比有什么优势和劣势?

优势:互信息捕捉任意统计依赖(含非线性),且 I=0 严格等价于独立,而 ρ=0 只代表无线性相关。劣势:互信息无固定上界、不便直接比较强弱;从有限样本估计(尤其连续变量需分箱或核密度/近邻估计)方差大、易高估,计算也比相关系数复杂得多。

追问 2InfoNCE 损失和互信息是什么关系?

InfoNCE 是对比学习的损失,它是互信息 (I(X;Y)) 的一个变分下界:最小化 InfoNCE 等价于最大化正样本对之间互信息的下界,下界紧致度随负样本数量增大而提高(上界约 log(N))。因此对比学习本质上在最大化正样本对共享的信息,学到对下游有判别力的表示。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。