Logistic回归与最大熵

根据Wikipedia上的资料显示,Logistic回归的起源主要有以下几大历程:最早由Pierre François Verhulst在对人口增长情况进行研究时提出Logistic function[1],后来Joseph Berkson在其基础上提出Logit function[2],再后来David Cox用Logit function来做二分类的回归分析,进而提出了Logistic regression[3],详细的起源历程参见[4][5]。Logistic回归除了按照它的起源从对数几率的角度解释以外,还有业界比较认同的从最大熵的角度来解释,下面给出Logistic回归从最大熵角度的解释。

对于数据集$\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2)…(\boldsymbol x_m,y_m)\}$,其中$\boldsymbol x_i\in \mathbb{R}^n,i=1,2…m$,Logistic回归在对随机变量$y\vert\boldsymbol x$建模的时候是假设其取值仅为0或1,即$y_i\in\{0,1\}$,且$y\vert\boldsymbol x$有固定但未知的期望$\mu$,所以根据最大熵原理,此时可以假设$y\vert\boldsymbol x$服从伯努利分布(原因参见《指数族分布与最大熵》),接着我们想用线性模型来对$y\vert\boldsymbol x$的概率$p(y\vert\boldsymbol x)$进行建模,于是可以通过广义线性模型(Generalized Linear Models)[6]的建模方法得到我们想要的模型。广义线性模型的建模步骤如下[7]

  • 在给定$\boldsymbol x$的条件下,假设随机变量$y\vert\boldsymbol x$服从某个指数族分布(Exponential family)[8]
  • 假设该指数族分布中的自然参数$\eta(\boldsymbol\theta)$和$\boldsymbol x$呈线性关系,即$\eta(\boldsymbol\theta) = \boldsymbol w^T \boldsymbol x$;
  • 建模出的模型为$T(y\vert\boldsymbol x)$的期望$E[T(y\vert\boldsymbol x)]$的表达式。

在使用上述步骤对$y$进行建模前,先证明一下伯努利分布属于指数族分布:
伯努利分布的分布律如下:

其中$x\in\{0,1\}$,$\mu$为$x=1$的概率也为$x$的期望,即$p(1)=E[x]=\mu$。对其进行恒等变形可得:

对照《指数族分布与最大熵》中指数族分布的一般形式可知,伯努利分布属于指数族分布,且对应的指数族分布参数为:

现在便可以根据上述广义线性模型的建模步骤对$y$进行建模:首先$y$服从伯努利分布,属于指数族分布,接着假设伯努利分布中的自然参数$\eta(\boldsymbol\theta)=\boldsymbol w^T \boldsymbol x$,再接着计算充分统计量$T(y\vert\boldsymbol x)$的期望表达式:

其中,第1个等式由式(A.3)导出;第2个等式是因为$y\vert\boldsymbol x$服从伯努利分布,所以$E(y\vert\boldsymbol x)=1*p(1\vert\boldsymbol x)+0*(1-p(1\vert\boldsymbol x))=p(1\vert\boldsymbol x)=\mu$;第3个等式是由式(A.2)导出,所以现在建模出的模型为:

显然此即为Logistic回归模型。
【注】:

  • 上述广义线性模型的建模步骤是一种固定的建模方法,也就是说在构建广义线性模型时,我们唯一要做的就是假设$y\vert\boldsymbol x$服从何种指数族分布,通常是以最大熵原理为准则来假设$y\vert\boldsymbol x$的分布,例如在做二分类问题时通常假设$y\vert\boldsymbol x$服从伯努利分布,在做回归问题时通常假设$y\vert\boldsymbol x$服从高斯分布,在做网站访问量预测时通常假设$y\vert\boldsymbol x$服从泊松分布。在确定$y\vert\boldsymbol x$的分布后,只需按照上述步骤即可构建出一个广义线性模型;
  • 除了从伯努利分布属于最大熵分布来解释以外,还有学者直接通过最大熵原理推导出Logistic回归,详细推导过程参见[9],文中推导思路如下:首先说明Logistic回归是多分类模型类别总数k=2时的特例,所以只要用最大熵原理推导出多分类模型也就推导出了Logistic回归。于是先证明了多分类模型的Softmax函数在取得最优参数时类似一个指示函数,接着便以此为约束条件用最大熵原理推导出Softmax函数,也即推导出多分类模型,进而也就推导出了Logistic回归。类似的直接从最大熵原理出发的推导还有[10]
  • Logistic回归也可以从贝叶斯的角度解释,参见[11]
  • 本文启发自知乎上的讨论:为什么 LR 模型要使用 sigmoid 函数,背后的数学原理是什么?

参考文献:

[1] Logistic function
[2] Logit
[3] Logistic regression
[4] 【机器学习算法系列之二】浅析Logistic Regression
[5] Cramer J S . The Origins of Logistic Regression
[6] Generalized linear model
[7] Andrew Ng. cs229-notes1
[8] Exponential family
[9] Mount, J.The equivalence of logistic regression and maximum entropy models
[10] 如何理解最大熵模型里面的特征? - Semiring的回答 - 知乎
[11] Logistic Regression and Naive Bayes