Statistical Learning with Sparsity - The Lasso and Generalizations的第3章导读
(1)注意第3章最开始部分指出了线性最小二乘的本质:输出变量为连续值,并服从高斯分布(因为误差服从高斯分布)。
假设$y_i=\beta^Tx_i+\epsilon_i$,而$\epsilon_i=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(\epsilon_i\right)^2}{\sigma^2}}$,则有
$$P(y_i|x_i;\beta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left(y_i-\beta^Tx_i\right)^2}{\sigma^2}}$$
这时$E(y|x_i)=\beta^Tx_i$
(2)logistic回归的输出变量为二项式分布。softmax的输出变量是多项式分布。
(3)联接函数(Link Function)是单调递增函数,其作用是将输出变量的数学期望变换成一个线性函数。在这种情况下所对应的模型称为广义线性模型,这类模型用指数簇函数来刻画输出变量。
(4)支持向量机和logistic回归都是基于间隔来进行分类,这种间隔表示为$y_if(x_i)$。
在林轩田老师的《机器学习基石》的第11讲的第4页给出了PLA( Perceptron Learning Algorithm ),Least Square,Logistic之间关于间隔函数的比较;《机器学习技法》的第5讲的ppt的第8页给出了SVM,PLA( Perceptron Learning Algorithm ),Logistic之间关于间隔函数的比较。归根结底,这些算法都是与间隔有关。还有一类称为AdaBoost的算法,它也与这里的间隔有关,只是AdaBoost的分类函数$f(.)$是由多个简单的分类函数按一定权重组合起来,参见《机器学习技法》的第11讲的ppt的第7页。
浙公网安备 33010602011771号