Entropy（熵）

就是衡量一件事『有多不确定』——如果明天天气板上钉钉，熵为零；如果晴雨完全随机，熵最大。

亦作、亦称：熵 · Shannon entropy · 信息熵 · 香农熵

熵是信息论的奠基概念，由香农于 1948 年引入，用于精确度量随机变量的不确定性。从分类模型的交叉熵损失到强化学习的策略熵正则，熵贯穿现代 AI 系统的训练与决策全流程。

概述

熵是信息论的核心度量，衡量随机系统中的平均不确定性。

直觉理解：熵越高，系统越难以预测，传递相同信息所需比特数越多
数学定义：H(X) = −∑ p(xᵢ) log₂ p(xᵢ)，对所有可能结果求加权对数之和
极端情形：所有概率集中于一个事件时 H = 0（完全确定）；均匀分布时 H 最大（最大不确定性）
与物理热力学熵的关系：数学形式相同，香农命名时受玻尔兹曼（Boltzmann）熵公式启发，但含义域不同

工作原理

熵的计算基于概率分布，在 AI 中以多种形式出现。

基础公式：H(X) = −∑ p(x) log₂ p(x)，结果单位为 bit（以 e 为底则为 nat）
均匀分布最大：n 个等概率结果的熵为 log₂ n，此时不确定性最高
交叉熵（Cross-Entropy）：H(p, q) = −∑ p(x) log q(x)，衡量用预测分布 q 编码真实分布 p 的代价
KL 散度：D_KL(p ‖ q) = H(p, q) − H(p)，即交叉熵超出自身熵的冗余部分
条件熵：H(Y|X) 表示已知 X 后 Y 的剩余不确定性，支撑信息增益计算

主要衍生形式

AI 实践中常遇到熵的多种衍生概念，需准确区分。

香农熵（Shannon Entropy）：基础形式，H(X) = −∑ p log p，度量单一分布的不确定性
交叉熵损失（Cross-Entropy Loss）：分类任务最常用损失函数，等价于最大化对数似然
二元交叉熵（Binary Cross-Entropy）：交叉熵在二分类中的特例，logistic 回归的标准损失
联合熵与条件熵：H(X, Y) 与 H(Y|X)，用于互信息 I(X; Y) = H(X) − H(X|Y) 的计算
微分熵（Differential Entropy）：连续随机变量的熵推广，可能为负值，与离散熵有本质差异

应用场景

熵在 AI 各子领域均有具体落地，是连接理论与工程的桥梁。

分类训练：交叉熵损失是图像分类、文本分类、语言模型 next-token 预测的标准目标函数
决策树：信息增益（Information Gain）= 父节点熵 − 子节点加权条件熵，驱动 ID3、C4.5 特征选择
强化学习探索：SAC（Soft Actor-Critic）最大化累积奖励与策略熵之和，防止策略过早确定化；PPO 中亦加入熵奖励
语言模型评估：困惑度（Perplexity） = 2^H，是衡量语言模型预测质量的核心指标
数据压缩：香农的信源编码定理证明，无损压缩的理论下界正是信源熵，Huffman 编码逼近该极限

与相邻概念的区别

熵与多个易混淆概念紧密关联，需明确边界。

熵 vs 交叉熵：熵度量单一分布自身不确定性；交叉熵度量用一个分布去编码另一个分布的代价，训练时最小化交叉熵即最小化 KL 散度
熵 vs KL 散度：KL 散度 = 交叉熵 − 自熵，非对称，D_KL(p ‖ q) ≠ D_KL(q ‖ p)
熵 vs 方差：两者都描述分散程度，但熵无量纲且不依赖数值大小，适用于任意离散分布
策略熵 vs 探索率 ε：ε-greedy 用固定概率随机行动；策略熵正则则让高不确定状态自然保留更多探索空间，更优雅灵活

局限与误区

正确理解熵的适用边界可避免常见工程失误。

误区一：认为熵越低越好——在强化学习探索阶段，策略熵过低会导致陷入局部最优；仅在分类推理阶段低熵（高置信度）才是目标
误区二：混淆离散熵与连续微分熵——微分熵可为负值，且对坐标变换不具不变性，两者物理含义不同
计算数值稳定性：直接计算 log(0) 会导致 NaN，实践中需加 ε 平滑（如 log(p + 1e-8)）
高维灾难：在高维联合分布中，熵估计需要指数级样本量，通常借助变分近似或神经网络估计器（如 MINE）
标签平滑（Label Smoothing）：通过人为升高真实分布熵来防止模型过度自信，但过度平滑会损害校准性

发展脉络

熵的概念从物理学演化至信息论，再深入 AI 各领域，历经数十年积淀。

1877 年：Boltzmann 在热力学中提出统计熵 S = k log W，为香农熵埋下形式化基础
1948 年：Claude Shannon 在贝尔实验室发表《A Mathematical Theory of Communication》，定义信息熵，奠定信息论学科
1951 年：Shannon 进一步估算英语字母熵约为 1.0 bit/字母，证明自然语言存在大量冗余
1986 年：交叉熵损失随反向传播算法普及，成为神经网络分类训练的标准目标
1996 年：Quinlan 的决策树算法 C4.5 将信息增益（基于熵）作为核心分裂准则推广
2018 年：Haarnoja 等提出 SAC（Soft Actor-Critic），将最大熵 RL 框架推向连续控制 SOTA
2020 年至今：熵在 LLM 训练（交叉熵损失）、RLHF（策略熵正则）、不确定性量化中持续发挥核心作用

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是衡量一件事『有多不确定』——如果明天天气板上钉钉，熵为零；如果晴雨完全随机，熵最大。」
「有人以为熵越大越好，其实要看场景：分类模型训练时希望预测分布熵小（置信度高），强化学习探索时则希望策略熵大（多样探索）。」
「熵就是『平均需要多少个是/否问题才能猜到答案』——掷均匀硬币需要 1 bit，掷均匀六面骰需要约 2.58 bit。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Entropy」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。