【转】集成学习(Boosting,Bagging和随机森林)
摘要:通过结合多个学习器完成学习任务,也叫“多分类器系统”、“基于委员会的学习”等。如果集成在一起的学习器都是同一种学习器(例如都是神经网络或者决策树),这种集成叫做“同质集成”,相应的学习器叫做“基学习器”,应用的算法叫做“基学习算法”。如果集成在一起的学习器不是同一种学习器(例如其中包括神经网络和决策
阅读全文
posted @
2017-05-05 15:11
sxron
阅读(343)
推荐(0)
机器学习中的相似性度量
摘要:在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2.
阅读全文
posted @
2017-03-29 10:25
sxron
阅读(156)
推荐(0)
8个提高机器学习模型准确率的方法
摘要:导语: 提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是90%的数据科学家开始放弃的时候。 不过,这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学家的差距所
阅读全文
posted @
2016-04-13 09:36
sxron
阅读(2656)
推荐(0)
【转】GBDT的基本原理
摘要:在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做
阅读全文
posted @
2016-03-12 19:33
sxron
阅读(317)
推荐(0)
【转】从最大似然到EM算法浅解
摘要:从最大似然到EM算法浅解 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那
阅读全文
posted @
2016-02-20 19:44
sxron
阅读(195)
推荐(0)
提高机器学习模型准确率的八大方法
摘要:导语 提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是 90% 的数据科学家开始放弃的时候。 不过,这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学家的差距
阅读全文
posted @
2016-02-17 11:32
sxron
阅读(5794)
推荐(0)
【转】随机森林(Random Forest)
摘要:阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Fo...
阅读全文
posted @
2016-01-17 09:58
sxron
阅读(359)
推荐(0)
构建机器学习系统的20个经验教训
摘要:数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言来传授的。推荐系统和机器学习工作时所总结的20条经验教训。更多的数据 & 更好的模型并不是数据越多结果就越好,高质量...
阅读全文
posted @
2015-12-22 09:45
sxron
阅读(832)
推荐(0)
【转载】机器学习算法基础概念学习总结
摘要:1.基础概念:(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为...
阅读全文
posted @
2015-11-07 11:25
sxron
阅读(461)
推荐(0)