Loading

机器学习-线性回归

每个特征变量可以首先映射到⼀一个函数,然后再参与线性计算,模型如下:
y = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋅ ⋅ ⋅ + θ n x n y = \theta_0 + \theta_1x_1 + \theta_2x_2 + · · · + \theta_nx_n y=θ0+θ1x1+θ2x2++θnxn
其中 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn表示自变量(特征分量), y y y表示因变量, θ \theta θ是权重, θ 0 \theta_0 θ0是偏移项(截距); θ i \theta_i θi越大,说明 x i x_i xi y y y结果的影响越⼤
输入空间映射到特征空间(映射函数 ϕ ( x ) \phi(x) ϕ(x)),建模.为
h θ ( x ) = θ T ϕ ( x ) h_\theta(x)=\theta^T\phi(x) hθ(x)=θTϕ(x)
特征映射相关技术,包括特征哈希、特征学习、Kernel等

目标函数

预测值$ h_\theta(x) 与 真 实 值 与真实值 y$之差越小越好,加入损失函数(平方损失函数):
J ( θ ) = 0.5 ∑ i = 1 n ( h θ ( x i ) − y i ) 2 J(\theta)={0.5}\sum_{i=1}^{n}{(h_\theta(x^i)-y^i)^2} J(θ)=0.5i=1n(hθ(xi)yi)2
m i n J ( θ ) min{J(\theta)} minJ(θ)
损失函数就是 x i x^i xi的预测值 h θ ( x i ) h_\theta(x^i) hθ(xi)与真实值 y i y^i yi之差的平方和

回归模型(尤其是线性回归类)的⽬目标函数通常⽤用平⽅方损失函数来作为优化的⽬目标函数

为什么用误差平方和作为目标函数:

根据中⼼心极限定理理,把那些对结果影响⽐比较⼩小的变量量(假设独⽴立同分布)之和认为服从正态分布是合理理的

如果数据是高斯分布的,输入值 x i x^i xi,预测值 θ T x i \theta^Tx^i θTxi,真实值 y i y^i yi,误差 ϵ i \epsilon^{i} ϵi,线性模型为,
y i = θ T x i + ϵ i y^i=\theta^Tx^i+\epsilon^{i} yi=θTxi+ϵi
根据中心极限定理,认为变量之和服从高斯分布,即
e i = y i − θ T x i e^{i} = y^i-\theta^Tx^i ei=yiθTxi
则,x,y的条件概率为
p ( y i ∣ x i ; θ ) = 1 2 π σ e x p ( − ( y i − θ T x i ) 2 2 σ 2 ) p(y^i|x^i;\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}) p(yixi;θ)=2π σ1exp(2σ2(yiθTxi)2)
p ( y i ∣ x i ; θ ) p(y^i|x^i;\theta) p(yixi;θ)越大,证明越接近真实值,还要考虑拟合过度以及模型的泛化能力问题

优化目标函数:使目标函数最小

最小二乘法
梯度下降法
    批量梯度下降法
    随机梯度下降法
拉格朗日乘子法


例子
[ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] \begin{bmatrix} {a_{11}}&{a_{12}}&{\cdots}&{a_{1n}}\\ {a_{21}}&{a_{22}}&{\cdots}&{a_{2n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {a_{m1}}&{a_{m2}}&{\cdots}&{a_{mn}}\\ \end{bmatrix} a11a21am1a12a22am2a1na2namn

posted @ 2019-09-28 20:37  AomanHao  阅读(12)  评论(0)    收藏  举报