互信息（Mutual Information）衡量的是什么？

Q: 互信息（Mutual Information）衡量的是什么？

直觉与定义 互信息度量两个随机变量之间“共享多少信息”：知道一个变量能让另一个变量的不确定性下降多少。 $I(X;Y)=H(X)-H(X\mid Y)=H(Y)-H(Y\mid X)$ 即 X 的熵减去给定 Y 后 X 的条件熵，差值就是 Y 提供的关于 X 的信息量，且关于 X、Y 对称。 与 KL 的联系 互信息也可写成联合分布与边际乘积之间的 KL 散度： $I(X;Y)=KL\big(p(x,y)\,\ \,p(x)p(y)\big)$ 由 KL 的非负性立刻得到 $I(X;Y)\ge 0$，且 $I(X;Y)=0$ 当且仅当 $p(x,y)=p(x)p(y)$，也就是 X 与 Y 独立。 为何重要 不同于相关系数只能测线性关系，互信息能捕捉任意形式（含非线性）的依赖，因此广泛用于特征选择、对比学习目标（如 InfoNCE 是互信息下界）和信息瓶颈理论。

Q: InfoNCE 损失和互信息是什么关系？

InfoNCE 是对比学习的损失，它是互信息 $I(X;Y)$ 的一个变分下界：最小化 InfoNCE 等价于最大化正样本对之间互信息的下界，下界紧致度随负样本数量增大而提高（上界约 log(N)）。因此对比学习本质上在最大化正样本对共享的信息，学到对下游有判别力的表示。

Question 1

互信息（Mutual Information）衡量的是什么？

Accepted Answer

直觉与定义 互信息度量两个随机变量之间“共享多少信息”：知道一个变量能让另一个变量的不确定性下降多少。 $I(X;Y)=H(X)-H(X\mid Y)=H(Y)-H(Y\mid X)$ 即 X 的熵减去给定 Y 后 X 的条件熵，差值就是 Y 提供的关于 X 的信息量，且关于 X、Y 对称。 与 KL 的联系 互信息也可写成联合分布与边际乘积之间的 KL 散度： $I(X;Y)=KL\big(p(x,y)\,\ \,p(x)p(y)\big)$ 由 KL 的非负性立刻得到 $I(X;Y)\ge 0$，且 $I(X;Y)=0$ 当且仅当 $p(x,y)=p(x)p(y)$，也就是 X 与 Y 独立。 为何重要 不同于相关系数只能测线性关系，互信息能捕捉任意形式（含非线性）的依赖，因此广泛用于特征选择、对比学习目标（如 InfoNCE 是互信息下界）和信息瓶颈理论。

Question 2

互信息与相关系数相比有什么优势和劣势？

Accepted Answer

优势：互信息捕捉任意统计依赖（含非线性），且 I=0 严格等价于独立，而 ρ=0 只代表无线性相关。劣势：互信息无固定上界、不便直接比较强弱；从有限样本估计（尤其连续变量需分箱或核密度/近邻估计）方差大、易高估，计算也比相关系数复杂得多。

Question 3

InfoNCE 损失和互信息是什么关系？

Accepted Answer

InfoNCE 是对比学习的损失，它是互信息 $I(X;Y)$ 的一个变分下界：最小化 InfoNCE 等价于最大化正样本对之间互信息的下界，下界紧致度随负样本数量增大而提高（上界约 log(N)）。因此对比学习本质上在最大化正样本对共享的信息，学到对下游有判别力的表示。

互信息（Mutual Information）衡量的是什么？

核心要点

标准回答

常见误区

追问

延伸学习