吴恩达“机器学习”——学习笔记三

牛顿方法(此方法为续学习笔记二)

如果我们想找到一个x,使得f(x)=0。那么先随机找一个x_0,在该点处做切线,这条切线与x轴交点为x_1,在x_1处做f的切线,以此类推。

记x_0与x_1之间的距离为Delta。那么,

(将自变量改为theta),。因为Delta是两个相邻自变量的距离,那么,

,此式可以推广为

 

记f为ln‘L,即f为似然韩式的导数,那么,

一般化的牛顿方法中theta是一个向量,可以写成

。其中,H是海森矩阵(Hession matrix)。该矩阵满足下列式子,

。牛顿方法比梯度上升算法能更快的求出theta,更快的对logistics回归模型进行拟合。

 指数分布族

满足该式的,成为指数分布族。eta成为自然参数,T(y)为充分统计量,通常T(y)=y。固定函数a,b,T,那么这就是以eta为参数的概率分布集。

伯努利和高斯分布都属于指数分布族

伯努利

,那么对应关系为

。通过变形,可以得到,

高斯分布

在高斯分布进行最大似然估计的时候,sigma对于最后所要求的结果没有影响,所以假设sigma为1,即高斯分布的方差为1。

,对应关系为

所以伯努利分布和高斯分布都是指数分布族。

广义线性模型

使用最小二乘法(y属于实数)和logistics回归方法(y取0,1)进行建模,都属于广义线性模型。

假设

1.

 2.给定一个x,我们的目标是求出E[T(y)|x],即h(x)=E[T(y)|x]

3.

 由以上得知,伯努利分布满足第一点。根据第二点,对于固定的theta和x,我们的目标是求出h(x)=E[T(y)|x],即

==,根据第三个条件,即为

此处跳过高斯分布,进行一个更加复杂例子的讲解。

多项式分布(Multinomial)

,参数为,,可以把最后一个参数写成1减去前k-1个参数得到的,所以,实际上,参数数量只有k-1个。

接下来把多项式分布写成指数分布族的形式。

定义k个k-1维的列向量

引入指示函数(indicator function notation)

1{true}=1,1{false}=0

规定T(y)i=1{y=i},i:T(y)的第i个元素。那么,可以得到

其中,那么,

(i=1,2,...,k-1)

那么此时的学习算法为,

这类算法成为softmax regression,它是logistics回归的推广,因为后者处理的y只有两个结果,前者处理的y有k个结果。

 

posted @ 2018-01-24 23:21  handsomeXXP  阅读(1051)  评论(0)    收藏  举报