01 2014 档案
摘要:在介绍相似度计算之前先介绍一下文档模型,也就是我们在解决一个问题的时候,一般是抽象出一个模型,也可以称为数学模型,这个模型可能是一个函数,可能是一个假设,主要的是为了解决这个问题。文档模型布尔模型建立在经典的集合论和布尔代数的基础上,每个词在一篇文档中是否出现,对应权值为 0或1向量空间模型中将文档表达为向量空间中的一个矢量或一个点,一个坐标轴代表一个词基于向量空间模型的相关度计算方法: 这边有几个概念,词频和逆向文件频率 词频就是把词进行归一化处理,那词在文档中出现的次数除以总文档总词数 逆向文件频率,主要衡量一个词重要性的标志,具体计算采用总文档数除以该词出现的文档数后取对数。数学之美中吧
阅读全文
摘要:文本挖掘可能更侧重于挖掘,跟NLP自然语言处理侧重点不一样,不过其依赖于自然语言处理,我的感觉就相当于计算机视觉依托于图像处理这个方向,大家侧重点不一样。自然语言处理主要流程文本->分句->分词->词性标注->短语分析->句法分析->语义分析->语篇分析->理解分句这个一般有标点符号相隔,这个便于处理。下面主要解决分词问题。分词的解决也就是解决特征提取的问题,我们在图像处理的时候要解决的第一个问题就是特征提取,选择什么样合理的特征。下面说一下分词基本方法:基于词典的方法基于标注的分词基于词典的方法中基于匹配的方法最大匹配算法(MM)具体思路:设定
阅读全文
摘要:理解置信度、支持度的定义以及最小置信度和最小支持度。 这几个概念要搞明白。 我们要做的事情就是在数据集中找出所有支持度大于最小支持度,置信度大于最小置信度的关联规则。 关联规则的挖掘所面临的问题就是数据量大,则如何提高算法的效率就是我们主要要解决的问题。 另外一个概念就是频繁项集,支持度大于最小支持度的数据项集就是频繁项集。 由于置信度通过支持度就可以求出,所以我们的关键问题就是如何求支...
阅读全文
摘要:下面介绍无监督机器学习算法,与前面分类回归不一样的是,这个不知道目标变量是什么,这个问题解决的是我们从这些样本中,我们能发现什么。 这下面主要讲述了聚类算法,跟数据挖掘中的关联挖掘中的两个主要算法。 K均值算法工作流程,首先随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中。 具体的讲就是为每个点找到最近的质心,并将其分配给该质心所对应的簇,这一步完成之后,每个簇的质心更新为该...
阅读全文
摘要:在前面线性回归,线性回归要拟合全部样本,这个是不显示的,因为问题不一定就是线性模型,其中一种可行的方法是将数据集切分成多分易建模的数据,然后利用前面线性回归的方法来建模。如果第一个切分之后的数据还不好拟合的话,那就继续切分。 这就是决策树中一种叫分类回归树CART。这个算法即可以用于分类也可以用于回归。 在这个学习中,介绍了树剪枝算法。 CART算法实现 先看一下之前的树分类 from ...
阅读全文
摘要:对于之前在分类问题中有逻辑回归,而对于这个线性回归以前一般是先讲述,将线性回归的结果通过函数映射到(0,1)区间,再以0.5作为区分形成分类问题。 具体的计算方法,在以前的blogs提到过,参考:http://www.cnblogs.com/fengbing/archive/2013/05/15/3079033.html 下面就直接实战 跟之前一样,第一步导入数据。 def loadDat...
阅读全文
摘要:集成学习方法是机器学习领域中用来提升分类算法准确率的技术,主要包括Bagging和Boosting即装袋和提升。我们这主要讲述Boosting中代表性算法AdaBoost元算法基于数据集多重抽样的分类器前面介绍了K近邻算法、决策树算法、朴素贝叶斯算法、逻辑回归以及支持向量机这些算法各有优缺点,我们自然可以将不同的分类器组合起来,这种组合的结果就被称为集成方法,有时也叫元算法。集成也分几种:1、不同算法的集成2、同一种算法在不同设置下的集成3、数据集的不同部分分配给不同分类器之后的集成。本文主要关心一个最流行的版本AdaBoost这个算法的主要思路:训练数据集中的每一个样本,并给每个样本赋予一个
阅读全文
摘要:支持向量机,作为新手,给出新手的学习心得,可能能让新手更容易理解吧。对于SVM的讲解,网上已经很多了,支持向量机通俗导论(理解SVM的三层境界) 这一篇blog写得很好,不过对于一个新手来说,我感觉行文逻辑还是有点怪,作者的写法是遇到问题解决问题,无可厚非这是一个很好的学习习惯,不过真正让学习的人看起来却没有一个提纲挈领的作用,而这次学习遇到这个算法,写下自己的学习笔记,里面也写了一点自己学习的思路,只是代表自己的一点愚见,本文主要参考上述blog以及该blog列出的参考文献。python算法实现,仍然是机器学习实战这本书。SVM怎么用学习这个东西就是为了用这个东西,目前网上有很多开源,免费的
阅读全文
摘要:对于线性回归、logistic回归,在以前准备学习深度学习的时候看过一点,当时的数学基础有点薄弱,虽然现在还是有点差,当时看到神经网络之后就看不下去了。不过这次是通过python对logistic回归进行编码实现。线性回归跟逻辑回归介绍就不多说了。网上有很多很好的讲解。另外我之前也写过自己学习斯坦福Andrew.Ng的课程的笔记,如下:http://www.cnblogs.com/fengbing/archive/2013/05/15/3079033.htmlhttp://www.cnblogs.com/fengbing/archive/2013/05/15/3079399.htmlhttp:
阅读全文
摘要:y是连续的则是一个回归问题,y是离散的则是一个分类问题,这边就开始考虑y是离散的情况。对于这样的问题很多,比如判断一个人是否生病,或者判断一个邮件是否是垃圾邮件。回归时连续型的,一般不用在上述的分类问题中,因为其受噪音的影响比较大,如果要把一个回归方法用到分类上的话,那就是logistic回归。之所以叫其回归,因为其本质上还是线性回归,只是在特征到结果中加了一层函数映射。对于这边也就是使用一个g(z)将连续的值映射到0跟1上面。下面就是将线性带入到g(z)中。则可以得到:对于我们考虑的问题是将连续的问题离散化,下面就带来两个问题,到底怎么做,还有就是为什么使用这个g(z)呢。至于为什么使用这个
阅读全文
摘要:朴素贝叶斯,基本思想就是,给出一个分类问题,对于待求项,属于哪个分类的概率最大,那这个待求项就属于哪个分类。 给出基本公式 假设要分类物有n个特征,分别为F1、F2、F3、…、Fn,现在有m个类别分别是C1、C2、C3、…、Cm.贝叶斯就是计算出概率最大的那个分类。 具体贝叶斯定理参考http://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%...
阅读全文
摘要:决策树的思想比较简单,不复杂,决策树,就是通过一个属性将数据进行划分,而这个属性的选择也就是决策树的关键,用什么样的属性分开的值尽可能属于同一个类别。属性选择的方法很多,书中主要介绍了:通过信息增益、增益比率、以及基尼指数.具体伪代码书中给出:本文采用了ID3算法划分数据集。该算法采用了一个叫信息增益的概念,关于信息论的部分,曾经写过一文http://www.cnblogs.com/fengbing/archive/2011/12/15/2288801.html中有部分阐述。我的理解就是,信息是什么,怎么度量,也就是信息经过压缩之后还能代表本身的最小值,这个可以根据霍夫曼编码看出。具体说明:考
阅读全文
摘要:自己一直学习计算机视觉方面的东西,现在想学习一下数据挖掘跟搜索引擎,自己基础也有点薄弱,看朱明的那本数据挖掘,只能片面的了解这个数据挖掘。不过最近有一本书 机器学习实战,于是乎通过实战的形式了解一下基本的算法的执行过程。在算法当中,很多都是相通的,模式识别、机器学习、数据挖掘、自然语言处理等等这些算法归结起来其实差不了多少,题外话不多说了,好好学习。k近邻算法对于这个算法,我用自己的话来描述一下,就是把一个未知数与所有已有的数据样本求距离,对距离进行排序,取前k个数,这k这个数中,那个类别多,那这个未知数就属于哪个类别。不用说,大家也知道这个k的选取还是很重要的。先用书上最简单的例子表述一下。
阅读全文

浙公网安备 33010602011771号