2. Supervised Learning - Logistic Regression
Logistic Regression 逻辑回归
解决问题类型
Notation
其中
为输入变量,也称为特征变量;
为我们要预测的输出变量,也称为目标变量
Hypothesis
的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性
最终,当
大于等于0.5时,预测y=1,当
小于0.5时,预测y=0
其中
称为Logistic函数或者sigmoid函数,函数图象如下
为什么选择Logistic函数见下节广义线性模型(Generlized Linear Models)
Maximum Likehood Estimate极大似然估计
#1 Gradient descent algorithm 梯度下降算法
#2 直接解法。。
对ℓ(θ)求导,令导数等于0。。。。这个式子太复杂了,貌似没有直接解法
#3 Newton's method牛顿法
在Logistic Regression中,最大化ℓ(θ)的过程可以看做寻找ℓ(θ)一阶导数为零的点,这样就转换成牛顿法可以求解的问题:
注意到Logistic Regression中θ是一个向量,需要对牛顿法做拓广,叫Newton-Raphson method
H是Hessian矩阵,在Logistic Regression中:
牛顿法在接近收敛时,有平方的收敛效果,即原来有0.01的误差,一次迭代后只有0.0001的误差
这使得牛顿法相比梯度下降法只需要少量的迭代就能达到相同的精度
牛顿法收敛速度虽然很快,但求 Hessian 矩阵的逆的时候比较耗费时间
牛顿法的初始化参数只有靠近收敛点才回高效,如果远离收敛点,甚至不会收敛,因为导数方向没有指示收敛点的方向
用牛顿法求解Logistic Regression叫Fisher's scoring
#高级优化算法
什么Conjugate Gradient,BFGS,LBFGS。。。。将开辟一节单独研究
多分类问题
参考资料
[1] CS229 Lecture notes 1 (ps) (pdf) Supervised Learning, Discriminative Algorithms Andrew Ng
[2] Coursera Machine Learning Andrew Ng


个样本。




是一下形式:








更新策略

是不一样的








浙公网安备 33010602011771号