跳转至

1 线性回归

基本形式

线性模型一般形式 $$ f(\boldsymbol{x})=w_1 x_1+w_2 x_2+\cdots+w_d x_d+b $$ \boldsymbol{x}=\left(x_1 ; x_2 ; \cdots, x_d\right) 是由属性描述的示例,其中 x_i\boldsymbol{x} 在第 i 个属性上的取值。

向量形式 $$ f(\boldsymbol{x})=\boldsymbol{w}^{\top} \boldsymbol{x}+b $$ \boldsymbol{w}=\left(w_1 ; w_2 ; \cdots, w_d\right) 是属性的权重。

线性回归

单元线性回归

目标:学得一个线性模型以尽可能准确地预测实值输出标记

属性处理:如果有序关系(如)则可以连续化为(\{1.0,0.0\});如果没有则可以化为 k 维独热向量,如(“西瓜”,“南瓜”)中的“西瓜”可以化为 (1,0)

最小二乘法

最小化目标:均方误差 $$ \mathbb{E}(w,b)=\sum_{i=1}^m[y_i-(wx_i+b)]^2 $$ 分别对 w,b 求导,令倒数梯度等于0,得到闭式解 $$ b=\frac{1}{m}\sum_i(y-wx_i)=\bar y-w\bar x $$

w=\frac{\sum_i y_i(x_i-\bar x)}{\sum_ix_i^2-\frac{1}{m}(\sum_{i}x_i)^2}

这里 \mathbb{E}(w,b) 是关于 w,b 的凸函数,所以导数均为0时得到最优解。

多元线性回归

目标:

f\left(\boldsymbol{x}_{\boldsymbol{i}}\right)=\boldsymbol{w}^{\top} \boldsymbol{x}_i+b \text { 使得 } f\left(\boldsymbol{x}_i\right) \approx y_i

\boldsymbol{w}b 合并成 \hat{\boldsymbol{w}}=(\boldsymbol{w};b),则数据集 D 需要拓展一个维度(恒为1)。

\begin{gathered} \boldsymbol{X}=\left(\begin{array}{ccccc} x_{11} & x_{12} & \cdots & x_{1 d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2 d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m 1} & x_{m 2} & \cdots & x_{m d} & 1 \end{array}\right)=\left(\begin{array}{cc} \boldsymbol{x}_1^{\top} & 1 \\ \boldsymbol{x}_2^{\top} & 1 \\ \vdots & \vdots \\ \boldsymbol{x}_m^{\top} & 1 \end{array}\right) \\ \boldsymbol{y}=\left(y_1 ; y_2 ; \cdots ; y_m\right) \end{gathered}

最小二乘法

最小化目标:

\mathbb{E}(\hat{\boldsymbol{w}})=||\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}}||_2^2=(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})^\top(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})

E(\widehat{w}) 关于变量 \widehat{w} 的导数得到

\nabla_{\widehat{w}} E(\widehat{\boldsymbol{w}})=2 \boldsymbol{X}^{\top}(\boldsymbol{X} \widehat{\boldsymbol{w}}-\boldsymbol{y})

令其为 0 可以得到 \hat w 最优解的闭式解,但是涉及到矩阵的逆要稍微做点讨论。


如果 X^TX 是满秩矩阵或者正定矩阵,则可以直接求逆。最优解是

\hat w^*=(X^TX)^{-1}X^Ty

此时学得的线性回归模型是

f(\hat{x_i})=\hat{x_i}^T\hat{w}^*

实际情况中往往不满足上述条件,就会解出很多个 \hat w 能使均方误差最小化。此时选择哪一个解要看学习算法的归纳偏好,常见的作法是引入正则化项

引入正则化就相当于再从另一个角度考量这些解,又可以优化一些出去。

本文阅读量