指数族分布与最大熵

最大熵原理

最大熵原理是概率模型学习的一个准则,最大熵原理认为:学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型[1]。此处所说的“熵”为信息论中的信息熵,信息熵定义如下:

  • 自信息:其中,$b=2$时单位为bit,$b=e$时单位为nat,$b=10$时单位为ban.
  • 信息熵是自信息的期望,即:当$X$为离散型时:当$X$为连续型时:其中$p(x)=p(X=x)$,当$X$为连续型时信息熵也称为微分熵,熵只依赖于$X$的分布,而与$X$的取值无关。

指数族分布

指数族(Exponential family)分布[2]是一类分布的总称,该类分布的分布律(概率密度函数)的一般形式如下:

其中,$\boldsymbol\theta$为指数族分布的参数,视具体的分布而定,既可以是向量也可以是标量,此处暂用向量的形式表示,$\eta(\boldsymbol\theta)$是关于$\boldsymbol\theta$的函数,称作自然参数 (natural parameter,也称canonical parameter),$T(x)$为充分统计量(sufficient statistic),$Z(\boldsymbol\theta)=\exp(A(\boldsymbol\theta))$为配分函数(partition function),是用来保证分布律的累加和$\sum\limits_x p(x|\boldsymbol\theta)=1$或者概率密度的积分值$\int_{-\infty}^{+\infty}p(x|\boldsymbol\theta)=1$,$h(x)$为一个关于$x$的函数,常见的伯努利分布和正态分布均属于指数族分布,所有指数族分布以及每个分布的各项参数值参见[2]里的表格。指数族分布有个很重要的性质:在给定的约束条件下,指数族分布是信息熵(微分熵)最大的分布。例如:在已知$X\in\{0,1\}$且期望$E[X]=\mu$时,伯努利分布是熵最大的分布;在已知$X$的均值为$\mu$,方差为$\sigma^2$时,正态分布是熵最大的分布,其他最大熵分布参见[3]里的表格。

指数族分布的最大熵推导:

当$X$为离散型时[4]
若已知$X$满足如下约束条件:

其中,$\vert X \vert$为$X$的可能取值个数,$n$为约束个数,$f_k(x_i)$为任意函数,$F_k$为已知常数,此时求$X$的最大熵分布等价于求解如下优化问题:

其中信息熵的单位为nat,也即取$b=e$,对该优化问题用拉格朗日乘子法可得:

其中,$p$可以看作一个分布律向量,也即$p=[p(x_1),p(x_2),…,p(x_{\vert X \vert})]$,$\boldsymbol\lambda=[\lambda_0,\lambda_1,…,\lambda_n]^T$为拉格朗日乘子向量,对$L(p,\boldsymbol\lambda)$关于$p$求偏导等价于分别对所有的$p(x_i)$求偏导:

令上式等于0解得:

又由约束条件$\sum\limits_{i=1}^{\vert X \vert} p(x_i) = 1$可得:

将其代入$p(x_i)$可得:

此式为$X$取到各个值$x_i$的概率,可以从中抽象出$X$的分布律为:

其中$Z=\sum\limits_x\exp(-\sum\limits_{k=1}^{n}\lambda_kf_k(x))$,此时$p(x)$的表达式显然符合指数族分布的一般形式。(注:上述推导过程是结合[1]中例6.2和[4]中9.2.6所述内容而成)
当$X$为连续型时
若已知$X$满足如下约束条件:

其中,$n$为约束个数,$f_k(x)$为任意函数,$F_k$为已知常数,此时求$X$的最大熵分布等价于求解如下优化问题:

其中信息熵的单位为nat,也即取$b=e$,对该优化问题用拉格朗日乘子法可得:

其中,$\int_{-\infty}^{+\infty}$可以看作$\sum\limits_x$,因此可以按照$X$为离散型时的推导方法推得$X$的分布律为:

其中$Z=\int_{-\infty}^{+\infty}\exp(-\sum\limits_{k=1}^{n}\lambda_kf_k(x))dx$。

伯努利分布的最大熵推导:

“已知$X\in\{0,1\}$且期望$E[X]=\mu$时,伯努利分布是熵最大的分布”,证明如下:
已知$X\in\{0,1\}$,所以$X$属于离散型,则根据式(A.2)知$X$的分布律的一般形式为:

又已知$E[X]=\mu$,其等价于如下约束条件:

所以对比式(A.2)可知,此时$n=1,f_1(x_i)=x_i,F_1=\mu$,代入$p(x)$可得:

再由$E[X]=\mu$可得:

所以$X$的分布律为:

显然此即为伯努利分布,证毕。

正态分布的最大熵推导:

“已知$X$的均值为$\mu$,方差为$\sigma^2$时,正态分布是熵最大的分布”,证明如下[5]
此时没有限定$X$的取值范围,则默认为$X\in(-\infty,+\infty)$的连续型,已知$X$的均值为$\mu$,方差为$\sigma^2$,其等价于如下约束条件:

所以对比式(B.1)可知,此时$n=1,f_1(x)=(x-\mu)^2,F_1=\sigma^2$,代入式(B.1)可得此时$X$的分布律:

再由$\int_{-\infty}^{+\infty}(x-\mu)^2p(x)dx = \sigma^2$解得:

代入$p(x)$中得:

显然此即为正态分布,证毕。

参考文献

[1] 李航.《统计学习方法》
[2] Exponential family
[3] Maximum entropy probability distribution
[4] Murphy K P. 《Machine Learning: A Probabilistic Perspective》
[5] 周晓飞. 《统计机器学习》课程的课件