机器学习-线性回归
每个特征变量可以首先映射到⼀一个函数,然后再参与线性计算,模型如下:
y
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
⋅
⋅
⋅
+
θ
n
x
n
y = \theta_0 + \theta_1x_1 + \theta_2x_2 + · · · + \theta_nx_n
y=θ0+θ1x1+θ2x2+⋅⋅⋅+θnxn
其中
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn表示自变量(特征分量),
y
y
y表示因变量,
θ
\theta
θ是权重,
θ
0
\theta_0
θ0是偏移项(截距);
θ
i
\theta_i
θi越大,说明
x
i
x_i
xi对
y
y
y结果的影响越⼤
输入空间映射到特征空间(映射函数
ϕ
(
x
)
\phi(x)
ϕ(x)),建模.为
h
θ
(
x
)
=
θ
T
ϕ
(
x
)
h_\theta(x)=\theta^T\phi(x)
hθ(x)=θTϕ(x)
特征映射相关技术,包括特征哈希、特征学习、Kernel等
目标函数
预测值$ h_\theta(x)
与
真
实
值
与真实值
与真实值y$之差越小越好,加入损失函数(平方损失函数):
J
(
θ
)
=
0.5
∑
i
=
1
n
(
h
θ
(
x
i
)
−
y
i
)
2
J(\theta)={0.5}\sum_{i=1}^{n}{(h_\theta(x^i)-y^i)^2}
J(θ)=0.5i=1∑n(hθ(xi)−yi)2
求
m
i
n
J
(
θ
)
min{J(\theta)}
minJ(θ)
损失函数就是
x
i
x^i
xi的预测值
h
θ
(
x
i
)
h_\theta(x^i)
hθ(xi)与真实值
y
i
y^i
yi之差的平方和
回归模型(尤其是线性回归类)的⽬目标函数通常⽤用平⽅方损失函数来作为优化的⽬目标函数
为什么用误差平方和作为目标函数:
根据中⼼心极限定理理,把那些对结果影响⽐比较⼩小的变量量(假设独⽴立同分布)之和认为服从正态分布是合理理的
如果数据是高斯分布的,输入值
x
i
x^i
xi,预测值
θ
T
x
i
\theta^Tx^i
θTxi,真实值
y
i
y^i
yi,误差
ϵ
i
\epsilon^{i}
ϵi,线性模型为,
y
i
=
θ
T
x
i
+
ϵ
i
y^i=\theta^Tx^i+\epsilon^{i}
yi=θTxi+ϵi
根据中心极限定理,认为变量之和服从高斯分布,即
e
i
=
y
i
−
θ
T
x
i
e^{i} = y^i-\theta^Tx^i
ei=yi−θTxi
则,x,y的条件概率为
p
(
y
i
∣
x
i
;
θ
)
=
1
2
π
σ
e
x
p
(
−
(
y
i
−
θ
T
x
i
)
2
2
σ
2
)
p(y^i|x^i;\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})
p(yi∣xi;θ)=2πσ1exp(−2σ2(yi−θTxi)2)
p
(
y
i
∣
x
i
;
θ
)
p(y^i|x^i;\theta)
p(yi∣xi;θ)越大,证明越接近真实值,还要考虑拟合过度以及模型的泛化能力问题
优化目标函数:使目标函数最小
最小二乘法
梯度下降法
批量梯度下降法
随机梯度下降法
拉格朗日乘子法
例子
[
a
11
a
12
⋯
a
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋱
⋮
a
m
1
a
m
2
⋯
a
m
n
]
\begin{bmatrix} {a_{11}}&{a_{12}}&{\cdots}&{a_{1n}}\\ {a_{21}}&{a_{22}}&{\cdots}&{a_{2n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {a_{m1}}&{a_{m2}}&{\cdots}&{a_{mn}}\\ \end{bmatrix}
⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤