2013 年 11月随笔档案 - Jizhiyuan

Deep Learning --- deep belief nets & restrict boltzmann machine

摘要：一、深度学习定义：深度学习是为了能够得到有助于理解图片、声音、文本等的数据所表述的意义而进行的多层次的表示和抽取的学习。用简单的机器学习，例如用含２个或３个隐含层的神经网络，是不可能达到与人类类似的判别决策的。这就需要多层的学习器，逐层学习并把学习到的知识传递给下一层，以便下层能够得到更高级别的表述形式，期望可以得到与人类类似的结论。学习的深度学习器的深度，决定于学习器的构造。根据学习的深度，机器学习可以分为浅度学习和深度学习。假设学习器为一个有向流通图，那么深度就是从开始结点到结束结点的最长路径。例如，一个支撑向量机的深度是２，是输入经过一个核变换到核空间，再加上一个线性组合。再如多层前传神阅读全文

posted @ 2013-11-30 20:09 Jizhiyuan 阅读(1092) 评论(0) 推荐(0)

Machine Learning --- Gaussian Inference

摘要：一、联合高斯分布中的推断把数据拆成两半(x1,x2)~N(μ,Σ)且则边缘分布、条件分布还是高斯分布：[应用]：数据填补：二、线性高斯系统令z=(x,y)，则：[应用1]：从未知x的有噪声测量y中估计x的值假设测量的精度固定为：，似然为：用后验方差表示则：[应用2]：数据融合（每个测量精度都不一样，如用不同的仪器采集）三、多元高斯参数的贝叶斯估计(1) μ的后验估计（高斯似然+共轭高斯先验）数据似然：共轭先验：后验：标量后验：(2) Σd的后验估计（IW似然+共轭IW先验/IG似然+共轭IG先验）当D=1时退化为反Gamma分布（卡方分布）：似然函数：共轭先验：后验：标量IG似然：标量共轭IG 阅读全文

posted @ 2013-11-19 12:43 Jizhiyuan 阅读(793) 评论(0) 推荐(0)

Machine Learning --- GMM & QDA\LDA & EM algorithm

摘要：一、单高斯模型GSM（多元正态分布MVN）当特征为2D时：马氏距离=翻转坐标系下的欧式距离：高斯分布证明（极大熵）： [例]拉格朗日乘子法对q求导：服从指数分布族：证毕。二、高斯混合模型GMM（多个单高斯的线性叠加，可逼近任意分布，每个高斯是一个聚类中心）目标求三个参数： (1)当样本类别已知时（简单问题）：经验公式求... 阅读全文

posted @ 2013-11-16 22:53 Jizhiyuan 阅读(1762) 评论(0) 推荐(0)

Machine Learning --- Structure risk & VC dimension

摘要：一、结构风险结构风险=经验风险+置信风险经验风险=分类器的训练误差置信风险=分类器的测试误差其中置信风险由样本数量N与分类函数的VC维h决定。样本数量越多模型越接近真实分布，置信风险越小；VC维越大，模型越复杂推广性差，置信风险越大。结构风险公式如下：二、VC维定义：若h个样本能被分类函数按所有可能的2h种形式分开，则称分类函数能把h个样本打散。分类函数的VC为就是它能打散的最大样本数h。若分类边界为线性，则h=D+1，D为特征维数。[例]2维平面内只能找到3个点被直线打散分成两堆。设A、B、C表示三个点，+1，-1表示堆的类别。当h=3时，有8种打散方式：当h=4时，只有14种打散方式（应该阅读全文

posted @ 2013-11-16 16:57 Jizhiyuan 阅读(382) 评论(0) 推荐(0)

Machine Learning --- Generative model Vs Discriminative model

摘要：阅读全文

posted @ 2013-11-16 14:31 Jizhiyuan 阅读(273) 评论(0) 推荐(0)

形式语言与自动机 --- 上下文无关语言 & 下推自动机

摘要：一、下推自动机(pushdown automata)下推自动机是一个带栈的自动机，用于信息暂存和比对。非确定型下推自动机由一个七元组定义：[例]针对语言 L={w∈{a,b}*:na(w)=nb(w)}构造一个npda。在处理baab过程中，该npda执行的迁移如下：二、下推自动机与上下文无关语言(a)证明：对于任何的上下文无关语言L，存在一个npda M使得L=L(M)。npda可表示为：其转移函数包括：，目标是证明：若，则：假设文法化为格里巴范式，根据定义和上式得：设w=a1a2…an，则：，根据规则得：则存在使得：如此重复，设得到：这使得任一时刻栈的内容（z除外）与句型中没有匹配的部分阅读全文

posted @ 2013-11-15 14:56 Jizhiyuan 阅读(4016) 评论(0) 推荐(1)

Data Mining --- Backpropagation Neural Network

摘要：一、BP神经网络BP神经网络模型如下，其目的是根据实际的输入与输出数据计算模型的权系数（误差反传），BP神经网络结构如下：假设有p个训练样本，即有p个输入输出对。输入向量为：Ip(ip1,…ipn)'，实际输出为：Tp=(tp1,…tpn)'，理论输出为：Op=(Op1,…,Opn)'。目标是根据极小原则不断修改权系数使实际输出与理论输出之差最小化，即minΣ(tpi-Opi)2，算法伪代码如下（其中l为学习率）：BP建模步骤：a.初始化权值w（赋一随机值rand(1)）和阈值sita（偏差）b.通过激发函数（如Sigmoid函数）正向传播输入c.通过更新权值w和阈值s 阅读全文

posted @ 2013-11-15 01:29 Jizhiyuan 阅读(499) 评论(0) 推荐(0)

Data Mining --- Information theory：熵/条件熵/互信息(信息增益)/交叉熵(相对熵/KL距离)

摘要：一、Jensen不等式若f为区间I上的凹函数，则Jensen不等式成立：这里若函数f为凹函数，则有：凹函数（上凸）如下图所示：归纳证明：Jessen不等式是凹函数的基本性质，在信息论中经常用到，常见的凹函数如下图：二、信息论1.熵（信息不确定性度量）2.联合熵3.条件熵4.互信息（信息增益）5.交叉... 阅读全文

posted @ 2013-11-14 18:27 Jizhiyuan 阅读(2066) 评论(0) 推荐(0)

Data Minig --- Decision Tree & ID3 & C4.5 & Gini Index

摘要：一、决策树学习（适用于“属性-值”实例且输出值离散）决策树学习是一种逼近离散值目标函数的方法，这个方法学到的函数称为一棵决策树。学到的决策树可表示为多个if-then过程以提高可读性。主要算法有：ID3、ASSISTANT、C4.5。决策树的节点表示某个属性，每个分支对应一个属性值，叶子结点为实例所属的分类，整个决策树是实例属性值的合取析取式。图例如下：该决策树的表达式：二、ID3算法（每次选信息增益最大的属性）ID3算法步骤：a.对当前例子集合，计算各属性的信息增益b.选择信息增益最大的属性Aic.在Ai处取相同值的例子归于同一个子集，Ai取几个值就得几个子集d.依次对每种取值情况下的子集, 阅读全文

posted @ 2013-11-14 17:22 Jizhiyuan 阅读(1077) 评论(0) 推荐(0)

Machine Learning --- Boosting & AdaBoost & Bootstrap

摘要：一、Boosting基本思想思想很朴素，“三个臭皮匠顶个诸葛亮”，由若干个弱分类器可组合成强分类器，通过调整样本的权重（概率）来迭代训练弱分类器（如decision tree），最后形成性能优异的强分类器（如SVM）。主要分为两个步骤：1.改变训练样本的权重分布；2.将弱分类器组合起来。算法内容如下：二、AdaBoost(多个弱分类器的线性组合)在Boosting思想下，AdaBoost算法诞生了（具体化了权重分配与弱分类器组合），算法内容很简单如下：图例如下：训练误差分析：弱分类器的错误率（因为弱分类器总比随机猜测好，随机猜测错误率0.5）：则训练误差（训练误差随循环次数T指数下降）：因此权阅读全文

posted @ 2013-11-14 12:21 Jizhiyuan 阅读(1190) 评论(0) 推荐(0)

Machine Learning --- Logistic Regression

摘要：一、两类Logistic回归（输出值[0,1]，预测的同时给出分类的概率，用于二分类）目标y∈{0,1}服从Bernolli分布：-log似然为：，其中(1)求解方法一阶梯度下降公式：法1：随机梯度下降：若u(x),y∈{-1,1}，则是著名的Perceptron感知机算法，a为学习率：法2：二阶梯度下降（牛顿法/切线法）一阶梯度：将导数gw在wt处二阶泰勒展开（其中H称为海塞矩阵）：得：因此迭代机制为：法3：IRLS（迭代加权最小二乘），目标是最小化：，其中，(2)加罚项（L2正则）(3)贝叶斯Logistic回归（Laplace/高斯近似：当样本足够多时后验接近高斯分布）先验：似然：后验p 阅读全文

posted @ 2013-11-13 18:44 Jizhiyuan 阅读(482) 评论(0) 推荐(0)

Machine Learning --- Sparse Model & ARD & BIC/AIC & Sparse Coding

摘要：一、稀疏模型所谓稀疏，即w中不相关特征的权重置0，因此也称“特征选择”。实际应用中只选择总特征的1/3，其他权重赋0。特征选择简化了模型，避免维度灾难，提高了推广性。二、贝叶斯特征选择(1)spike & slab模型，L0正则(非零项个数)选择还是不选择服从Bernoulli分布，先验为：似然为：若似然不能解析求解，可用BIC（贝叶斯信息准则，见3）近似：后验为：，其中整理得目标函数：式子是不是很熟悉，与岭回归一样，就是L2正则变为L0正则，估计参数w的同时完成了特征选择！但L0很难优化。对于给定的，可以得到解析解：。可以贪心搜索（最佳单特征替换SBR、正交最小二乘OLS、正交投影寻阅读全文

posted @ 2013-11-13 15:12 Jizhiyuan 阅读(1205) 评论(1) 推荐(0)

Machine Learning --- zero-mean & whiten(data preprocessing)

摘要：1.零均值化（消常数项）往往用于线性回归问题：y=wx+b，消除求参数w时截距b的影响。零均值处理即数据减其均值（x=x-mean(x),y=y-mean(y)）。如何求截距b呢？只要代入最初的均值mean(y)=w*mean(x)+b，b便可知。matlab:x=x-mean(x);y=y-mean(y);2.白化/空间解相关（消除各分量相关性，去相关加缩放）一随机信号向量x，其协方阵矩阵为：Cov(x)=E((x-m)*(x-m)')≠I（半正定）。要解除x各分量的相关性就是要找到一个空间解相关矩阵（白化矩阵）B，使得：Cov(Bx)=E(B(x-m)*(x-m)'B 阅读全文

posted @ 2013-11-13 13:53 Jizhiyuan 阅读(652) 评论(0) 推荐(0)

Machine Learning --- Linear regression & Rige & Robust regression & Lasso

摘要：一、Least squares最小二乘回归（高斯似然+均匀先验）因为先验是均匀分布，因此求最小二乘回归即求高斯最大似然。在泛化的线性模型里，x为多项式基：高斯似然函数为：让似然函数最大，即令残差平方和RSS最小，RSS/N即为均方误差MSE。-log似然（NLL）对w求偏导等于0，得：*注：最小二乘回归计算方法1.数值计算（有解析解，精确，但速度慢）a. QR分解：稳定b. SVD奇异值分解（广义的特征值分解）SVD分解，得右奇异向量：奇异值：左奇异向量：最小二乘计算结果：2.梯度下降法（有数值解，速度快。利用所有样本，也称批处理梯度下降）3.随机梯度下降法（SGD，每次只用一个样本，速度更快阅读全文

posted @ 2013-11-13 01:48 Jizhiyuan 阅读(1831) 评论(0) 推荐(0)

Machine Learning --- SVM & Kernel Trick & GLM

摘要：一、SVMSVM:支持向量机，即用不多的几个向量（二维是点）撑起分类界面，如图：固定间隔为1，目标是让几何间隔越大越好（类分得越开越好），即找出最小的||w||。这里间隔定义为：|g|=y*(w'x+b)，几何间隔定义为：|g|/||w||（即点到直线的距离）。为方便运算，把w的二范式平方（即权重平方和），最后就把SVM转变为二次规划问题：解规划问题，自然想到拉格朗日乘子法，定义拉格朗日函数：此式对w求偏导，便得最小w（a是一个稀疏向量，非零项对应的x为支持向量）：因此判别函数便出来了：将测试的点x带入上式，与训练的点xi算内积，得出的结果大于1便是+类，小于1便是-类。以上为理想情况阅读全文

posted @ 2013-11-12 23:43 Jizhiyuan 阅读(1666) 评论(1) 推荐(1)

所以燃

11 2013 档案