目录
不同表述形式
有限形式
测度与概率形式
在概率论中的广义形式
不等式证明
有限形式
测度和概率形式
概率论中的广义形式
不等式应用
在概率密度函数中的形式
随机变量的偶次矩
其他有限形式
统计物理
信息论
Rao–Blackwell定理
在数学中,琴生不等式(Jensen Inequality)以丹麦数学家 Johan Jensen 的名字命名,又称詹森不等式。它将积分的凸函数的值与凸函数的积分联系起来,Jensen在 1906 年证明了这一点。
鉴于其普遍性,不等式根据上下文以多种形式出现,最简单的不等式表示均值的凸变换小于或等于凸变换后的均值。而凹变换的情况正好相反。
Jensen不等式概括了凸函数的割线位于函数图上方的陈述,这是Jensen对两点的不等式:割线由凸函数的加权均值组成(对于 t∈[0,1]):
函数的图形是加权均值的凸函数:
因此,Jensen 不等式是 :
在概率论的语境中,一般用以下形式表述:如果 X 是随机变量且 φ 是凸函数,则:
不等式两边的差,称为 Jensen 间隙(Jensen gap)。
Jensen 不等式的经典形式涉及多个数字和权重。 不等式可以用测度论的语言或(等价的)概率来表述。 在概率定义中,不等式可以进一步推广到其全部强度(full strength)。
对于一个实凸函数,定义域中的数字,和正权重,Jensen不等式可以表示为:
如果为凹函数,则:
当且仅当时等号成立,或者为线性函数。
作为特殊情况,当正权重都相等时,上述等式可以表示为:
琴生不等式可以用作证明一般情况的平均不等式:
1)">
其中前面两个取,后面一个取。
一个常见的应用是将 x 作为另一个变量(或一组变量)t的函数。 所有这些都直接适用于一般连续情况:权重被非负可积函数f(x)代替,例如概率分布,并且总和被积分代替。
令是一个概率空间,。如果g是一个实数函数,且对于可积,另外如果是一个在实线域上是凸函数,则:
在实分析中,我们可能需要对下式做一个估计:
其中,是非负勒贝格积分函数。在这种情况下,勒贝格测度[a,b]不用是统一的。但是,通过作代换积分,可以重新调整区间以使其具有度量单位,那么可以应用Jensen不等式得到:
通过简单的符号变化,可以在概率论中等效地陈述相同的结果。 令为概率空间,X为可积实值随机变量,φ为凸函数。 则:
在这个概率定义中,测度μ的目的是作为概率P,关于μ作为期望值的积分,以及作为随机变量X的函数g。
注意等式成立当且仅当 φ 是某个凸集A上的线性函数,使得。
更一般地,设T为实拓扑向量空间,X为T值可积随机变量。在这个一般设置中,可积意味着在T中存在一个元素E[X],使得对于T的对偶空间(dual space)中的任何元素 z: ,。然后,对于任何可测凸函数 φ 和F的任何子 σ-代数:
这里代表以 σ-代数为条件的期望。当拓扑向量空间T是实轴,并且是平凡的σ-代数 {∅, Ω}(其中∅是空集,Ω是样本空间),这个一般性陈述简化为以前的陈述。
一种锐化和概括的形式
设X是一维随机变量,均值为,方差为。令为二次可微函数,并定义函数:
然后:
特别地,当是凸的,那么。对于被另外假设为二次可微的情况,自然而然能够得出标准的Jensen 不等式的形式。
Jensen 不等式可以通过多种方式证明,并且将提供对应于上述不同陈述的三种不同证明。
然而,在开始这些数学推导之前,有必要分析基于概率情况的直观图形论证,其中X是实数(见上图)。假设X值的分布,人们可以立即确定E[X]及其图像φ(E[X])在图中的位置。注意到对于凸映射Y = φ(X),随着X值的增加,Y值的相应分布越来越“伸展”,很容易看出Y的分布在对应于X_{0}">的区间中更宽,并且对于任何,在处更窄;特别是,对于也是如此。因此,在这张图片中,Y的期望总是相对于的位置向上移动。如果X的分布覆盖了凸函数的递减部分,或者同时覆盖了凸函数的递减部分和递增部分,则类似的推理成立。这“证明”了不等式:
等式成立仅当 φ(X) 不是严格凸的时,例如当它是一条直线时,或者当 X 遵循退化分布(即是一个常数)时。
假设是实线的可测子集,f(x)是一个非负函数:
在概率论中f(x)是概率密度函数。利用Jensen不等式的加权形式,可以写出f(x)形式下的公式。
如果g是任何实值可测函数且在g的范围内是凸的,那么:
如果g(x)=x,那么这种不等式的形式可以简化为一个常用的特例:
这个结果一般被应用于变分贝叶斯方法(Variational Bayesian methods)。
如果,X是一个随机变量,g是一个凸函数:
二阶导数大于0,为凸函数,于是有:
特别的,如果X的偶次矩是有限的,X具有有限的均值。这个结论可以推广为:X的次矩是有限的。
令,取为其上的测度,则一般的形式可以化简为求和的形式:
前提是:
这里也有无限的离散形式。
在统计物理中考虑一个指数型的凸函数:
其中期望值为某个分布下的随机变量X的值。
上述公式证明比较简单,首先:
然后利用已有公式:
代入前式得:
如果p(x)是X的概率密度,q(x)是另一个概率密度,对随机变量Y(X)=q(X)/p(X)应用琴生不等式,则
因而:
这个结果被称为吉布斯不等式(Gibbs' inequality)
它表明当基于真实概率p而不是任何其他分布q分配代码时,平均消息长度最小。非负的数量称为q与p的Kullback-Leibler散度。由于-log(x)是x>0的严格凸函数,因此当p(x)几乎处处等于q(x)时,等式成立。