摘要:一、联合高斯分布中的推断把数据拆成两半(x1,x2)~N(μ,Σ)且则边缘分布、条件分布还是高斯分布:[应用]:数据填补:二、线性高斯系统令z=(x,y),则:[应用1]:从未知x的有噪声测量y中估计x的值假设测量的精度固定为:,似然为:用后验方差表示则:[应用2]:数据融合(每个测量精度都不一样,如用不同的仪器采集)三、多元高斯参数的贝叶斯估计(1) μ的后验估计(高斯似然+共轭高斯先验)数据似然:共轭先验:后验:标量后验:(2) Σd的后验估计(IW似然+共轭IW先验/IG似然+共轭IG先验)当D=1时退化为反Gamma分布(卡方分布):似然函数:共轭先验:后验:标量IG似然:标量共轭IG
阅读全文
摘要:一、单高斯模型GSM(多元正态分布MVN) 当特征为2D时: 马氏距离=翻转坐标系下的欧式距离: 高斯分布证明(极大熵): [例]拉格朗日乘子法对q求导: 服从指数分布族: 证毕。 二、高斯混合模型GMM(多个单高斯的线性叠加,可逼近任意分布,每个高斯是一个聚类中心) 目标求三个参数: (1)当样本类别已知时(简单问题):经验公式求...
阅读全文
摘要:一、结构风险结构风险=经验风险+置信风险经验风险=分类器的训练误差置信风险=分类器的测试误差其中置信风险由样本数量N与分类函数的VC维h决定。样本数量越多模型越接近真实分布,置信风险越小;VC维越大,模型越复杂推广性差,置信风险越大。结构风险公式如下:二、VC维定义:若h个样本能被分类函数按所有可能的2h种形式分开,则称分类函数能把h个样本打散。分类函数的VC为就是它能打散的最大样本数h。若分类边界为线性,则h=D+1,D为特征维数。[例]2维平面内只能找到3个点被直线打散分成两堆。设A、B、C表示三个点,+1,-1表示堆的类别。当h=3时,有8种打散方式:当h=4时,只有14种打散方式(应该
阅读全文
摘要:一、Boosting基本思想思想很朴素,“三个臭皮匠顶个诸葛亮”,由若干个弱分类器可组合成强分类器,通过调整样本的权重(概率)来迭代训练弱分类器(如decision tree),最后形成性能优异的强分类器(如SVM)。主要分为两个步骤:1.改变训练样本的权重分布;2.将弱分类器组合起来。算法内容如下:二、AdaBoost(多个弱分类器的线性组合)在Boosting思想下,AdaBoost算法诞生了(具体化了权重分配与弱分类器组合),算法内容很简单如下:图例如下:训练误差分析:弱分类器的错误率(因为弱分类器总比随机猜测好,随机猜测错误率0.5):则训练误差(训练误差随循环次数T指数下降):因此权
阅读全文
摘要:一、两类Logistic回归(输出值[0,1],预测的同时给出分类的概率,用于二分类)目标y∈{0,1}服从Bernolli分布:-log似然为:,其中(1)求解方法一阶梯度下降公式:法1:随机梯度下降:若u(x),y∈{-1,1},则是著名的Perceptron感知机算法,a为学习率:法2:二阶梯度下降(牛顿法/切线法)一阶梯度:将导数gw在wt处二阶泰勒展开(其中H称为海塞矩阵):得:因此迭代机制为:法3:IRLS(迭代加权最小二乘),目标是最小化:,其中,(2)加罚项(L2正则)(3)贝叶斯Logistic回归(Laplace/高斯近似:当样本足够多时后验接近高斯分布)先验:似然:后验p
阅读全文
摘要:一、稀疏模型所谓稀疏,即w中不相关特征的权重置0,因此也称“特征选择”。实际应用中只选择总特征的1/3,其他权重赋0。特征选择简化了模型,避免维度灾难,提高了推广性。二、贝叶斯特征选择(1)spike & slab模型,L0正则(非零项个数)选择还是不选择服从Bernoulli分布,先验为:似然为:若似然不能解析求解,可用BIC(贝叶斯信息准则,见3)近似:后验为:,其中整理得目标函数:式子是不是很熟悉,与岭回归一样,就是L2正则变为L0正则,估计参数w的同时完成了特征选择!但L0很难优化。对于给定的,可以得到解析解:。可以贪心搜索(最佳单特征替换SBR、正交最小二乘OLS、正交投影寻
阅读全文
摘要:1.零均值化(消常数项)往往用于线性回归问题:y=wx+b,消除求参数w时截距b的影响。零均值处理即数据减其均值(x=x-mean(x),y=y-mean(y))。如何求截距b呢?只要代入最初的均值mean(y)=w*mean(x)+b,b便可知。matlab:x=x-mean(x);y=y-mean(y);2.白化/空间解相关(消除各分量相关性,去相关加缩放)一随机信号向量x,其协方阵矩阵为:Cov(x)=E((x-m)*(x-m)')≠I(半正定)。要解除x各分量的相关性就是要找到一个空间解相关矩阵(白化矩阵)B,使得:Cov(Bx)=E(B(x-m)*(x-m)'B
阅读全文
摘要:一、Least squares最小二乘回归(高斯似然+均匀先验)因为先验是均匀分布,因此求最小二乘回归即求高斯最大似然。在泛化的线性模型里,x为多项式基:高斯似然函数为:让似然函数最大,即令残差平方和RSS最小,RSS/N即为均方误差MSE。-log似然(NLL)对w求偏导等于0,得:*注:最小二乘回归计算方法1.数值计算(有解析解,精确,但速度慢)a. QR分解:稳定b. SVD奇异值分解(广义的特征值分解)SVD分解,得右奇异向量:奇异值:左奇异向量:最小二乘计算结果:2.梯度下降法(有数值解,速度快。利用所有样本,也称批处理梯度下降)3.随机梯度下降法(SGD,每次只用一个样本,速度更快
阅读全文
摘要:一、SVMSVM:支持向量机,即用不多的几个向量(二维是点)撑起分类界面,如图:固定间隔为1,目标是让几何间隔越大越好(类分得越开越好),即找出最小的||w||。这里间隔定义为:|g|=y*(w'x+b),几何间隔定义为:|g|/||w||(即点到直线的距离)。为方便运算,把w的二范式平方(即权重平方和),最后就把SVM转变为二次规划问题:解规划问题,自然想到拉格朗日乘子法,定义拉格朗日函数:此式对w求偏导,便得最小w(a是一个稀疏向量,非零项对应的x为支持向量):因此判别函数便出来了:将测试的点x带入上式,与训练的点xi算内积,得出的结果大于1便是+类,小于1便是-类。以上为理想情况
阅读全文