Changed Linear Regression

线性回归的变形

顾名思义,线性回归只能处理线性关系的情况,这样难免有很大的局限性,所以我们通常对线性回归模型进行改造来获得拟合曲线的能力。

对数线性回归

当点集所表现出了的趋势大致为对数函数时,显然线性回归会有很大的偏差,此时在原有的基础上对y取对数即可转化为x到ln y的线性回归。我们得到下面的模型:

在式中对数函数起到了将线性关系映射到曲线关系的作用,因此对于不同的映射函数,我们可以得到许多的非线性模型,即

这些非线性模型的核心还是线性回归,因此这些非线性回归都是广义上的线性回归,是它的一种变形。

对数几率回归

如果我们想用线性回归来解决二分类问题,我们可以使用单位阶跃函数把y映射到(0,1),单位阶跃函数形式如下

当单位阶跃函数作用于y后,若y大于零则为正例,小于零则为反例,y为临界值则可任意判别。但是由单位阶跃函数的表达式我们可以知道它是不连续的。实际中,不连续的函数存在应用困难,我们希望能找到可以近似代替单位阶跃函数的连续函数,对数几率函数就是我们要找的函数:

如果y表示x是正例的可能性,那么1-y就是其为反例的可能性,两者都比值$\frac{y}{1-y}$称为几率,反应x为正例的相对可能性,对几率取对数则得到对数几率$ln{\frac{y}{1-y}}$。

由此可以看出式(4)是在用线性回归的模型来预测对数几率

对数几率回归参数的求解

要确定对数几率回归模型,就必须求解参数w和b,若将式(4)中的y’视为类后验概率估计p(y’=1|x),则式(4)可重写为

显然有

于是,我们可通过”极大似然法”来估计w和b。对给定的数集${(x_{i},y_{i})}_{i=1}^{m}$,对数概率回归模型最大”对数似然”为

即令每个样本属于其真实标记的概率越大越好。为方便讨论

则式(7)可重写为

把式(9)代入(6)可得最大化式(7)等于最小化下式

式(10)是关于$\beta$的告诫可导连续函数,根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等都可以求得其最优解如下

文章目录
  1. 1. 线性回归的变形
    1. 1.1. 对数线性回归
    2. 1.2. 对数几率回归
      1. 1.2.0.1. 对数几率回归参数的求解