核心要点

  • 不等式形式:凸函数 f 满足 E[f(X)]≥f(E[X]);凹函数(如 log)反向 E[f(X)]≤f(E[X])。

  • 取等条件:当 X 为常数,或 f 在 X 的支撑上为线性时取等号。

  • 推导 ELBO:对 log p(x)=log E_q[p(x,z)/q(z)] 用 log 的凹性,得到变分下界 ELBO,用于 VAE 与变分推断。

  • 其他应用:证明 KL 散度非负、EM 算法的下界上升、log-sum 不等式、AM-GM 均值不等式。

标准回答

不等式内容

对凸函数 f 和随机变量 X:

(E[f(X)]\ge f(E[X]))

凹函数(如 (\log))方向相反:(E[\log X]\le \log E[X])。等号成立当且仅当 X 几乎处处为常数,或 f 在 X 的取值范围上是线性的。

核心应用:变分下界 ELBO

边际似然难算,引入变分分布 q(z) 后:

(\log p(x)=\log E_{q}\Big[\dfrac{p(x,z)}{q(z)}\Big]\ge E_{q}\Big[\log\dfrac{p(x,z)}{q(z)}\Big])

右边即 ELBO(证据下界),不等号正是由 (\log) 的凹性经 Jensen 得到。最大化 ELBO 就是在逼近 (\log p(x)),这是 VAE 和变分推断的理论基石;EM 算法的 E 步也是用 Jensen 构造可上升的下界。

其他用途

  • 证明 (KL(p|q)\ge 0):对 (-\log) 应用 Jensen。
  • log-sum 不等式、AM-GM 均值不等式都可由 Jensen 导出。

常见误区

⚠️ 常见踩坑

务必分清方向:log 是凹函数,所以 E[log X]≤log E[X],而 ELBO 是“下界”正源于此凹性;若误当凸函数用会把不等号方向写反,整套推导失效。

追问

追问 1如何用 Jensen 不等式证明 KL 散度非负?

(KL(p|q)=\sum p\log\frac{p}{q}=-\sum p\log\frac{q}{p}=E_p[-\log\frac{q}{p}])。(-\log) 是凸函数,由 Jensen (E[-\log Y]\ge -\log E[Y]),取 (Y=q/p) 得 (KL\ge -\log\sum p\cdot\frac{q}{p}=-\log\sum q=-\log 1=0)。等号当且仅当 (q/p) 恒为常数即 (p=q)。

追问 2ELBO 与真实对数似然之间的差距是什么?

差距恰好是近似后验与真实后验之间的 KL 散度:(\log p(x)=\text{ELBO}(q)+KL(q(z)|p(z\mid x)))。因为 KL≥0,所以 ELBO 总是 (\log p(x)) 的下界;当 (q(z)) 精确等于真实后验 (p(z|x)) 时 KL=0、下界变紧、ELBO 等于对数似然。因此最大化 ELBO 同时在拉近变分后验与真实后验。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。