所以燃

2013年11月13日

Machine Learning --- Logistic Regression

摘要: 一、两类Logistic回归(输出值[0,1],预测的同时给出分类的概率,用于二分类)目标y∈{0,1}服从Bernolli分布:-log似然为:,其中(1)求解方法一阶梯度下降公式:法1:随机梯度下降:若u(x),y∈{-1,1},则是著名的Perceptron感知机算法,a为学习率:法2:二阶梯度下降(牛顿法/切线法)一阶梯度:将导数gw在wt处二阶泰勒展开(其中H称为海塞矩阵):得:因此迭代机制为:法3:IRLS(迭代加权最小二乘),目标是最小化:,其中,(2)加罚项(L2正则)(3)贝叶斯Logistic回归(Laplace/高斯近似:当样本足够多时后验接近高斯分布)先验:似然:后验p 阅读全文

posted @ 2013-11-13 18:44 Jizhiyuan 阅读(482) 评论(0) 推荐(0)

Machine Learning --- Sparse Model & ARD & BIC/AIC & Sparse Coding

摘要: 一、稀疏模型所谓稀疏,即w中不相关特征的权重置0,因此也称“特征选择”。实际应用中只选择总特征的1/3,其他权重赋0。特征选择简化了模型,避免维度灾难,提高了推广性。二、贝叶斯特征选择(1)spike & slab模型,L0正则(非零项个数)选择还是不选择服从Bernoulli分布,先验为:似然为:若似然不能解析求解,可用BIC(贝叶斯信息准则,见3)近似:后验为:,其中整理得目标函数:式子是不是很熟悉,与岭回归一样,就是L2正则变为L0正则,估计参数w的同时完成了特征选择!但L0很难优化。对于给定的,可以得到解析解:。可以贪心搜索(最佳单特征替换SBR、正交最小二乘OLS、正交投影寻 阅读全文

posted @ 2013-11-13 15:12 Jizhiyuan 阅读(1205) 评论(1) 推荐(0)

Machine Learning --- zero-mean & whiten(data preprocessing)

摘要: 1.零均值化(消常数项)往往用于线性回归问题:y=wx+b,消除求参数w时截距b的影响。零均值处理即数据减其均值(x=x-mean(x),y=y-mean(y))。如何求截距b呢?只要代入最初的均值mean(y)=w*mean(x)+b,b便可知。matlab:x=x-mean(x);y=y-mean(y);2.白化/空间解相关(消除各分量相关性,去相关加缩放)一随机信号向量x,其协方阵矩阵为:Cov(x)=E((x-m)*(x-m)')≠I(半正定)。要解除x各分量的相关性就是要找到一个空间解相关矩阵(白化矩阵)B,使得:Cov(Bx)=E(B(x-m)*(x-m)'B 阅读全文

posted @ 2013-11-13 13:53 Jizhiyuan 阅读(652) 评论(0) 推荐(0)

Machine Learning --- Linear regression & Rige & Robust regression & Lasso

摘要: 一、Least squares最小二乘回归(高斯似然+均匀先验)因为先验是均匀分布,因此求最小二乘回归即求高斯最大似然。在泛化的线性模型里,x为多项式基:高斯似然函数为:让似然函数最大,即令残差平方和RSS最小,RSS/N即为均方误差MSE。-log似然(NLL)对w求偏导等于0,得:*注:最小二乘回归计算方法1.数值计算(有解析解,精确,但速度慢)a. QR分解:稳定b. SVD奇异值分解(广义的特征值分解)SVD分解,得右奇异向量:奇异值:左奇异向量:最小二乘计算结果:2.梯度下降法(有数值解,速度快。利用所有样本,也称批处理梯度下降)3.随机梯度下降法(SGD,每次只用一个样本,速度更快 阅读全文

posted @ 2013-11-13 01:48 Jizhiyuan 阅读(1831) 评论(0) 推荐(0)

导航