摘要:前言 最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样。单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间。本文整理spark随机森林实现中的相关技巧,方便后面回顾。 随机森林算法概要 随机森林算法的详细实现和细节,可以参考论文Brei... 阅读全文
posted @ 2015-05-03 14:23 bourneli 阅读 (7501) 评论 (0) 编辑