05 2015 档案

Spark随机深林扩展—OOB错误评估和变量权重

摘要：本文目的当前spark（1.3版）随机森林实现，没有包括OOB错误评估和变量权重计算。而这两个功能在实际工作中比较常用。OOB错误评估可以代替交叉检验，评估模型整体结果，避免交叉检验带来的计算开销。现在的数据集，变量动辄成百上千，变量权重有助于变量过滤，去掉无用变量，提高计算效率，同时也可以帮助理... 阅读全文

posted @ 2015-05-28 19:39 bourneli 阅读(4107) 评论(0) 推荐(0)

Spark随机森林实现学习

摘要：前言最近阅读了spark mllib（版本：spark 1.3）中Random Forest的实现，发现在分布式的数据结构上实现迭代算法时，有些地方与单机环境不一样。单机上一些直观的操作（递归），在分布式数据上，必须进行优化，否则I/O（网络，磁盘）会消耗大量时间。本文整理spark随机森林实现中的相关技巧，方便后面回顾。随机森林算法概要随机森林算法的详细实现和细节，可以参考论文Brei... 阅读全文

posted @ 2015-05-03 14:23 bourneli 阅读(9074) 评论(0) 推荐(0)

bourneli(李伯韬)的技术博客

博客搬家了，新的日志会在一数一世界更新！

05 2015 档案

公告