09 2012 档案

机器学习-CART决策树
摘要:之前泛泛看了下了Random Forest和决策树,现在落实到一个具体决策树算法:CART(Classification and Regression Tree)。 CART是1984年由Breiman, Friedman, Olshen, Stone提出的一个决策树算法,虽然不是第一个机器学习领域的决策树,但却是第一个有着复杂的统计学和概率论理论保证的决策树(这些话太学术了,引自参考文献[2])。 CART是一个二叉决策树,亦即决策树的每个内部节点(决策节点)最多有两个分支。因为之前有博文介绍过ID3和C4.5算法,所以这里只从确定最佳分裂属性和剪枝两方面介绍CART。 1. 确定最佳分裂. 阅读全文

posted @ 2012-09-29 09:54 潘的博客 阅读(3657) 评论(0) 推荐(0)

机器学习-决策树
摘要:既然上次讲到了随机森林,而随机森林是由多棵决策树构成的,现在就回头仔细看看决策树。 博客园中已经有介绍决策树的非常好的博文。其中详细介绍了ID3,C4.5决策树的构造,这篇博文主要关注在树的每个节点如何确定最佳分裂属性和剪枝。 1.确定最佳分裂属性 一般介绍决策树都是以ID3(Quinlan 1986)为例。ID3算法使用的是信息增益,信息增益的具体细节我不再赘述。在决策树的节点N上,ID3算法选取在该节点对应的训练样例集合D上用输入属性进行分类后信息增益最大的输入属性。信息增益的定义为:。其中S为节点N上的训练样例集合,A为某个输入属性。对于所有在节点N上可用的输入属性,我们选取信息增益值. 阅读全文

posted @ 2012-09-28 17:21 潘的博客 阅读(1849) 评论(0) 推荐(0)

机器学习-Random Forest算法简介
摘要:Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该算法在分类上的应用。 Random Forest(随机森林)算法是通过训练多个决策树,生成模型,然... 阅读全文

posted @ 2012-09-22 22:09 潘的博客 阅读(24842) 评论(2) 推荐(3)

Mahout学习笔记-分类算法之Decision Forest
摘要:近来做一些遥感图像自动解译的工作,需要根据遥感图像每个单元(像元,像素)的几个波段值和相互之间的位置关系来进行自动分类,也就是确定哪些区域是耕地,哪些是林地,哪些是草地。之前虽然有上过数据挖掘和机器学习的课,但是自己的专业并不在此,对遥感图像的自动分类更是一窍不通,所以慢慢自学,顺便写个博客记录一下自己的学习过程,谬误在所难免,大家多多包涵指正。 根据最近的Mahout Wiki,Mahout实现的分类算法有:随机梯度下降(SGD),贝叶斯分类,Online Passive Aggressive,HMM和决策森林(随机森林)。随机梯度下降当前不能并行处理,贝叶斯分类更适合处理文本数据,所以.. 阅读全文

posted @ 2012-09-21 17:10 潘的博客 阅读(4520) 评论(5) 推荐(1)

导航