分类
模型如下:
- 回归问题:学习的结果是连续的,比如房价等等
- 分类问题:学习的结果是非连续的,分成某几个类
梯度下降
例子:
:
条件:
- 对于输入X有n个特征值。X = {
x1,x2,x3,x4,.......,xn } - 一共有m组输入。
X1,X2,......,Xm
结果:
- 根据给出的数据得到函数
hθ (x),关于θ 的一个函数
假设:
J(θ) 主要用来描述该方程在样本点的逼近程度
特点:
- 都具有局部最小值
- 最后的结果并不一定是总体的最小值
1.批梯度下降:
思路:
先初始化θ = 0向量,然后通过学习,不断改变θ 使Jθ 不断减小,致使方程不断在学习点逼近真值。(至于为什么要选择最小二乘法和为什么这个值有极限,稍后给出证明)迭代方程:
其中:α 决定下降速度
推导方程:
迭代算法:
注意:
- 该算法每次迭代查看了所有样本,知道
θ 收敛 - 收敛的意思是:误差在允许的范围内就没有继续发生变化了
- 该算法每次迭代查看了所有样本,知道
2.增量梯度下降:
迭代算法:
注意:
- 每次迭代只用到了第
i 个样本
- 每次迭代只用到了第
正规方程组
1.矩阵导数
表示:
对矩阵A的导数,函数f 是一个由矩阵到实数的映射
矩阵的迹:
相关的性质:
交换性,要就矩阵的乘法有意义:
2.最小二乘法
令
概率论解释
1.问题:
为什么在线性回归中我们要用最小二乘作为误差项,而不用三次方,四次方之类的。
2.解答:
设:
ϵ(i) 是误差项,ϵ(i) ~N(0,σ2) 所以:
即:y(i) |x(i);θ ~N(θTx(i),σ2) - 用最大概然法:
浙公网安备 33010602011771号