12 2012 档案

摘要:随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。学习算法:1. 用N来表示训练例子的个数,M表示变量的数目。2. 我们会被告知一个数m,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M。3. 从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样(待了解))并使用这棵树来对剩余预测其类别,并评估其误差。4. 对于每一个节点,随机选择m个基于此点上的变量。根据这m个变量,计算其最佳的分割方式。5. 每棵树都会完整成长而不会剪枝(Pruning)(未完待续) 阅读全文
posted @ 2012-12-31 00:04 Harrison_ 阅读(527) 评论(0) 推荐(0)
摘要:SVM与Adaboost存在一些相似之处,下面我们看下关于Adaboost的基本介绍Adaboost,是Adaptive Boosting是缩写。是经过调整的Boosting算法,适应性调整,能够对弱学习得到的弱分类器的错误进行适应性调整。Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。以上是Adaboost的核心思想。算法本身是通过改变数据分布来实现的。算法思路:1. 根据每一次训练集之中,每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。2. 将修改过权值的新 阅读全文
posted @ 2012-12-20 23:22 Harrison_ 阅读(2428) 评论(0) 推荐(1)
摘要:算法:一:Random Forest二:SVM三:Adaboost第一层面. 会用,input, output第二层面. 基本原理第三层面. 优缺点,与其它算法比较第四层面. 为什么能够work第五层面. 创造一个类似的算法Next:算法框架SVM - Support Vector Machine - 支持向量机From Wikipedia: In Machine Learning, support vector machine (SVM) are supervised learning models with associated learning algorithms that analy 阅读全文
posted @ 2012-12-11 15:22 Harrison_ 阅读(876) 评论(0) 推荐(0)
摘要:在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量做一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 阅读全文
posted @ 2012-12-03 12:08 Harrison_ 阅读(472) 评论(0) 推荐(0)