线性模型

一、一元线性回归

1.1、概念

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数 

表达形式:f(x)= w1x1 + w2x+ ... + wdx+ b 

向量形式: f(x)= wTx + b 

分类是尝试将点分开,回归是尝试将点串起来

 

 

1.2、离散数据

离散数据分为有序和无序

有序的可以用连续数值表示,例如高中低,可以用1.0, 0.5, 0来表示;无序则用k维向量来表示,例如:(0, 0, 1)表示瓜的一种颜色,(0, 1, 0)表示另一种颜色等。

总结:离散属性的处理,若有序(order),则连续化,否则,转化为k维向量。

 

1.3、最小二乘法:

概念:使得均方误差最小化的模型参数求解过程的方法。

 对于一个数求偏导,是在求该点的变化率,如果变化率等于0,说明该点不动了。

最小二乘法的求解步骤是:1,均方误差对w和b求偏导, 2,令偏导为0, 3,求解线性方程组。

 
 

 

 

 

1.4、线性模型的优势

简单,基本,可理解性好。

 

二、 多元线性回归

多元线性回归,同样用最小二乘法求解:将w和b吸收入向量形式 w = (w; b)

 

 

 

 

 

  • 多元线性回归使用正则化的原因:计算机数值精度有限,样例维度大于样例数,存在大量线性相关的样例。
  • 为了书写的方便,多元线性回归会将 w 与 b 合并为一个向量,在 X 的最后增加一列 1 。
  • 多元线性回归不满秩的情况下,可以通过加入归纳偏好来选取较好的解。
  •  XT X满秩,多元线性回归的最小二乘法解唯一。

 

 三、对数几率回归

3.1、概念:

又叫逻辑回归,跟逻辑没有关系;几率,反映了x作为正例的相对可能性,在统计学中被称为几率。

Logistic 与“逻辑” 没有关系;  Logistic源自 Logit,不是Logic;实数值,并非“非0即1” 的逻辑值

 

3.2、特点:

1、无需事先假设数据的分布;

2、可得到“类别”的近似概率预测;

3、可直接应用现有数值优化算法求取最优解

 

3.3、替代单位阶跃函数

单位阶跃函数,缺点:不连续不可微

对数几率函数作为单位阶跃函数的替代函数优点:单调任意阶可导

 

 

 3.4、对数几率

对数几率 = +|x| / -|x| 

y / 1 - y 反映了 x 作为正例的相对可能性,这个量在统计学中被称为几率。

对数几率回归不能通过令偏导为0求解,因为均方损失非凸。

求解对数几率回归时,使用极大似然法的优势是:优化目标是凸函数,可以使用梯度下降法求解,优化目标连续可微。

 

3.5、梯度下降:

可以用于求解对数几率回归

是一种迭代求解的方法

可以比较好的并行化

 

四、类别不均衡

不是所有的类别不均衡都需要处理,只有在丢掉的小类价值很高的时候,才需要处理。不同类别的样本比例相差很大,小类往往更重要;

 

 处理类别不均衡问题时,复制小类样本不是一种好的过采样方法,主要是容易过拟合,受噪声影响大,有过拟合噪声的风险。

 

  • 为了书写的方便,多元线性回归会将 w 与 b 合并为一个向量,在 X 的最后增加一列 1 。 
posted @ 2022-12-18 20:48  wangpengcufe  阅读(690)  评论(0)    收藏  举报