标准回答
不等式内容
对凸函数 f 和随机变量 X:
(E[f(X)]\ge f(E[X]))
凹函数(如 (\log))方向相反:(E[\log X]\le \log E[X])。等号成立当且仅当 X 几乎处处为常数,或 f 在 X 的取值范围上是线性的。
核心应用:变分下界 ELBO
边际似然难算,引入变分分布 q(z) 后:
(\log p(x)=\log E_{q}\Big[\dfrac{p(x,z)}{q(z)}\Big]\ge E_{q}\Big[\log\dfrac{p(x,z)}{q(z)}\Big])
右边即 ELBO(证据下界),不等号正是由 (\log) 的凹性经 Jensen 得到。最大化 ELBO 就是在逼近 (\log p(x)),这是 VAE 和变分推断的理论基石;EM 算法的 E 步也是用 Jensen 构造可上升的下界。
其他用途
- 证明 (KL(p|q)\ge 0):对 (-\log) 应用 Jensen。
- log-sum 不等式、AM-GM 均值不等式都可由 Jensen 导出。
常见误区
⚠️ 常见踩坑
务必分清方向:log 是凹函数,所以 E[log X]≤log E[X],而 ELBO 是“下界”正源于此凹性;若误当凸函数用会把不等号方向写反,整套推导失效。
追问
追问 1:如何用 Jensen 不等式证明 KL 散度非负?
(KL(p|q)=\sum p\log\frac{p}{q}=-\sum p\log\frac{q}{p}=E_p[-\log\frac{q}{p}])。(-\log) 是凸函数,由 Jensen (E[-\log Y]\ge -\log E[Y]),取 (Y=q/p) 得 (KL\ge -\log\sum p\cdot\frac{q}{p}=-\log\sum q=-\log 1=0)。等号当且仅当 (q/p) 恒为常数即 (p=q)。
追问 2:ELBO 与真实对数似然之间的差距是什么?
差距恰好是近似后验与真实后验之间的 KL 散度:(\log p(x)=\text{ELBO}(q)+KL(q(z)|p(z\mid x)))。因为 KL≥0,所以 ELBO 总是 (\log p(x)) 的下界;当 (q(z)) 精确等于真实后验 (p(z|x)) 时 KL=0、下界变紧、ELBO 等于对数似然。因此最大化 ELBO 同时在拉近变分后验与真实后验。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。