Entropy(熵)
就是衡量一件事『有多不确定』——如果明天天气板上钉钉,熵为零;如果晴雨完全随机,熵最大。
亦作、亦称:熵 · Shannon entropy · 信息熵 · 香农熵
熵是信息论的奠基概念,由香农于 1948 年引入,用于精确度量随机变量的不确定性。从分类模型的交叉熵损失到强化学习的策略熵正则,熵贯穿现代 AI 系统的训练与决策全流程。
概述
熵是信息论的核心度量,衡量随机系统中的平均不确定性。
- 直觉理解:熵越高,系统越难以预测,传递相同信息所需比特数越多
- 数学定义:H(X) = −∑ p(xᵢ) log₂ p(xᵢ),对所有可能结果求加权对数之和
- 极端情形:所有概率集中于一个事件时 H = 0(完全确定);均匀分布时 H 最大(最大不确定性)
- 与物理热力学熵的关系:数学形式相同,香农命名时受玻尔兹曼(Boltzmann)熵公式启发,但含义域不同
工作原理
熵的计算基于概率分布,在 AI 中以多种形式出现。
- 基础公式:H(X) = −∑ p(x) log₂ p(x),结果单位为 bit(以 e 为底则为 nat)
- 均匀分布最大:n 个等概率结果的熵为 log₂ n,此时不确定性最高
- 交叉熵(Cross-Entropy):H(p, q) = −∑ p(x) log q(x),衡量用预测分布 q 编码真实分布 p 的代价
- KL 散度:D_KL(p ‖ q) = H(p, q) − H(p),即交叉熵超出自身熵的冗余部分
- 条件熵:H(Y|X) 表示已知 X 后 Y 的剩余不确定性,支撑信息增益计算
主要衍生形式
AI 实践中常遇到熵的多种衍生概念,需准确区分。
- 香农熵(Shannon Entropy):基础形式,H(X) = −∑ p log p,度量单一分布的不确定性
- 交叉熵损失(Cross-Entropy Loss):分类任务最常用损失函数,等价于最大化对数似然
- 二元交叉熵(Binary Cross-Entropy):交叉熵在二分类中的特例,logistic 回归的标准损失
- 联合熵与条件熵:H(X, Y) 与 H(Y|X),用于互信息 I(X; Y) = H(X) − H(X|Y) 的计算
- 微分熵(Differential Entropy):连续随机变量的熵推广,可能为负值,与离散熵有本质差异
应用场景
熵在 AI 各子领域均有具体落地,是连接理论与工程的桥梁。
- 分类训练:交叉熵损失是图像分类、文本分类、语言模型 next-token 预测的标准目标函数
- 决策树:信息增益(Information Gain)= 父节点熵 − 子节点加权条件熵,驱动 ID3、C4.5 特征选择
- 强化学习探索:SAC(Soft Actor-Critic)最大化累积奖励与策略熵之和,防止策略过早确定化;PPO 中亦加入熵奖励
- 语言模型评估:困惑度(Perplexity) = 2^H,是衡量语言模型预测质量的核心指标
- 数据压缩:香农的信源编码定理证明,无损压缩的理论下界正是信源熵,Huffman 编码逼近该极限
与相邻概念的区别
熵与多个易混淆概念紧密关联,需明确边界。
- 熵 vs 交叉熵:熵度量单一分布自身不确定性;交叉熵度量用一个分布去编码另一个分布的代价,训练时最小化交叉熵即最小化 KL 散度
- 熵 vs KL 散度:KL 散度 = 交叉熵 − 自熵,非对称,D_KL(p ‖ q) ≠ D_KL(q ‖ p)
- 熵 vs 方差:两者都描述分散程度,但熵无量纲且不依赖数值大小,适用于任意离散分布
- 策略熵 vs 探索率 ε:ε-greedy 用固定概率随机行动;策略熵正则则让高不确定状态自然保留更多探索空间,更优雅灵活
局限与误区
正确理解熵的适用边界可避免常见工程失误。
- 误区一:认为熵越低越好——在强化学习探索阶段,策略熵过低会导致陷入局部最优;仅在分类推理阶段低熵(高置信度)才是目标
- 误区二:混淆离散熵与连续微分熵——微分熵可为负值,且对坐标变换不具不变性,两者物理含义不同
- 计算数值稳定性:直接计算 log(0) 会导致 NaN,实践中需加 ε 平滑(如 log(p + 1e-8))
- 高维灾难:在高维联合分布中,熵估计需要指数级样本量,通常借助变分近似或神经网络估计器(如 MINE)
- 标签平滑(Label Smoothing):通过人为升高真实分布熵来防止模型过度自信,但过度平滑会损害校准性
发展脉络
熵的概念从物理学演化至信息论,再深入 AI 各领域,历经数十年积淀。
- 1877 年:Boltzmann 在热力学中提出统计熵 S = k log W,为香农熵埋下形式化基础
- 1948 年:Claude Shannon 在贝尔实验室发表《A Mathematical Theory of Communication》,定义信息熵,奠定信息论学科
- 1951 年:Shannon 进一步估算英语字母熵约为 1.0 bit/字母,证明自然语言存在大量冗余
- 1986 年:交叉熵损失随反向传播算法普及,成为神经网络分类训练的标准目标
- 1996 年:Quinlan 的决策树算法 C4.5 将信息增益(基于熵)作为核心分裂准则推广
- 2018 年:Haarnoja 等提出 SAC(Soft Actor-Critic),将最大熵 RL 框架推向连续控制 SOTA
- 2020 年至今:熵在 LLM 训练(交叉熵损失)、RLHF(策略熵正则)、不确定性量化中持续发挥核心作用
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是衡量一件事『有多不确定』——如果明天天气板上钉钉,熵为零;如果晴雨完全随机,熵最大。」
- 「有人以为熵越大越好,其实要看场景:分类模型训练时希望预测分布熵小(置信度高),强化学习探索时则希望策略熵大(多样探索)。」
- 「熵就是『平均需要多少个是/否问题才能猜到答案』——掷均匀硬币需要 1 bit,掷均匀六面骰需要约 2.58 bit。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「Entropy」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。