01 2012 档案
摘要:VirtuaWin:非常好的多桌面扩展软件。Xshell:优秀的终端连接软件,感觉比secureCRT好,还不需要破解。Totalcommander:这个就不说了。Everything:急速本地搜索文件,速度令人震惊。Xmind:思维导图,够用。Edraw Max: 画图流程图软件。PDF-xchange Viewer:很不错的PDF软件。MacType:win下的字体渲染系统,很漂亮,遗憾没有早发现。Wiz:捧场一下,做的很不错的在线笔记solution,希望能成为中国的 evernote。Stickies: 桌面黄纸条,很不错,主页在这里http://www.zhornsoftware.c
阅读全文
摘要:引子 Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如: 稀疏性(Sparseness): 对于大词典,...
阅读全文
摘要:轮廓图(Silhouette)是一种用来刻画聚类效果的度量。详细解释见:http://en.wikipedia.org/wiki/Silhouette_(clustering)定义为:对于一个样本点 i,其 Silhouette 值为:Latex Eqation:s(i)=\frac{b(i)-a(i)}{max\{a(i),b(i)\}}其中 a(i) 为点 i 与当前所属类的差异度(dissi...
阅读全文
摘要:EM算法简述EM算法是机器学习中一个很重要的算法,即期望最大化算法,主要包括以下两个步骤: E步骤:estimate the expected values M步骤:re-estimate parameters 可以有一些比较形象的比喻说法把这个算法讲清楚。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,显然没有必要拿来天平一点一点的精确的去称分量,最简单的办法是先随意的把...
阅读全文
摘要:决策树算法机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造
阅读全文
摘要:SVM简介支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,广泛的应用于统计分类以及回归分析中,并可推广于预测和综合评价等领域。SVM属于一般化线性分类器,这族分类器的特点是能够同时最小化经验误差与最大化几何边缘区。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der
阅读全文
摘要:问题描述寻找一系列合适的参数 W,使得其对应的多项式与样值点最接近。对于如何刻画“最接近”,可以定义目标函数最小化:如下图:由下图可见,当多项式的阶数(M)增加时,红色多项式曲线与样本的误差越小。当M为9时,多项式曲线通过每一个样本点。Over Fitting 问题但是多项式阶数为9时,其推广能力并不好。在测试集上,其误差反而增加,这就是过拟合(over fitting)问题。为解决Over fitting问题,将目标函数增加一项,如下图。这一过程称为 regularization。通过正则化,一部分解决了过拟合问题。下图仍然是 M=9,作用在相同数据集上的情况。可见引入的正则项控制了 Ove
阅读全文
摘要:拉格朗日乘数详细的解释见wiki,http://zh.wikipedia.org/wiki/%E6%8B%89%E6%A0%BC%E6%9C%97%E6%97%A5%E4%B9%98%E6%95%B0例子[编辑]很简单的例子求此方程的最大值:f(x,y) =x2y同时未知数满足x2+y2= 1因为只有一个未知数的限制条件,我们只需要用一个乘数λ.g(x,y) =x2+y2− 1Φ(x,y,λ) =f(x,y) + λg(x,y) =x2y+ λ(x2+y2− 1)将所有Φ方程的偏微分设为零,得到一个方程组,最大值是以下方程组的解中的一个:2xy+ 2λx= 0x2+ 2λy= 0x2+y2−
阅读全文
摘要:最大熵模型的意义和形式第一次系统提出最大熵的原理的一般认为是Jaynes,后来有人提出了相应的算法来估计对应的统计模型的参数。由于当时计算条件的限制,最大熵模型在人工智能和自然语言处理领域都没有得到广泛应用。上世纪90年代,IBM的研究员应用重新深入的研究了这个问题,系统地描述了条件最大熵的框架和实现算法,并在自然语言处理任务上取得了非常好的效果,引起了人们的重视。很快条件最大熵模型技术得到了广泛...
阅读全文
摘要:物理学的熵描述事物无序性的参数,熵越大则无序性越强。从宏观方面讲(根据热力学定律),一个体系的熵等于其可逆过程吸收或耗散的热量除以它的绝对温度从微观讲,熵是大量微观粒子的位置和速度的分布概率的函数。自然界的一个基本规律就是熵递增原理,即,一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发地产生新的有序结构,这意味着自然界越变越无序。信息论的熵先认识一下信息论的鼻祖,香农。信息论的开创者香农认为,信息(知识)是人们对事物了解的不确定性的消除或减少。他把不确定的程度称为信息熵。表示为:Matlab Demo:p=[0:0.01:1];h=-1*(p.*log2(
阅读全文

浙公网安备 33010602011771号