大数据 - 随笔分类 - bourneli

Spark随机深林扩展—OOB错误评估和变量权重

摘要：本文目的当前spark（1.3版）随机森林实现，没有包括OOB错误评估和变量权重计算。而这两个功能在实际工作中比较常用。OOB错误评估可以代替交叉检验，评估模型整体结果，避免交叉检验带来的计算开销。现在的数据集，变量动辄成百上千，变量权重有助于变量过滤，去掉无用变量，提高计算效率，同时也可以帮助理... 阅读全文

posted @ 2015-05-28 19:39 bourneli 阅读(4123) 评论(0) 推荐(0)

Spark随机森林实现学习

摘要：前言最近阅读了spark mllib（版本：spark 1.3）中Random Forest的实现，发现在分布式的数据结构上实现迭代算法时，有些地方与单机环境不一样。单机上一些直观的操作（递归），在分布式数据上，必须进行优化，否则I/O（网络，磁盘）会消耗大量时间。本文整理spark随机森林实现中的相关技巧，方便后面回顾。随机森林算法概要随机森林算法的详细实现和细节，可以参考论文Brei... 阅读全文

posted @ 2015-05-03 14:23 bourneli 阅读(9076) 评论(0) 推荐(0)

RDD分区2GB限制

摘要：本文目的最近使用spark处理较大的数据时，遇到了分区2G限制的问题(ken)。找到了解决方法，并且在网上收集了一些资料，记录在这里，作为备忘。问题现象遇到这个问题时，spark日志会报如下的日志，片段1 15/04/16 14:13:03 WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, ... 阅读全文

posted @ 2015-04-25 16:22 bourneli 阅读(10145) 评论(0) 推荐(0)

Spark使用总结与分享

摘要：背景使用spark开发已有几个月。相比于python/hive，scala/spark学习门槛较高。尤其记得刚开时，举步维艰，进展十分缓慢。不过谢天谢地，这段苦涩（bi）的日子过去了。忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。 Spark基础基石RDD ... 阅读全文

posted @ 2015-04-05 16:11 bourneli 阅读(52727) 评论(3) 推荐(2)

Spark核心—RDD初探

摘要：本文目的最近在使用Spark进行数据清理的相关工作，初次使用Spark时，遇到了一些挑（da）战（ken）。感觉需要记录点什么，才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍，作为个人备忘，也希望对读者有用。为什么选择Spark 原因如下代码复用：使用Scala高级语言操作Spark，灵活方便，面向对象，函数编程的语言... 阅读全文

posted @ 2015-03-07 20:36 bourneli 阅读(7283) 评论(0) 推荐(3)

How can R and Hadoop be used together?

摘要：Referer:http://www.quora.com/How-can-R-and-Hadoop-be-used-together/answer/Jay-Kreps?srid=OVd9&share=1Another way to answer this questionis that they don't really integrate very well.The advantage of R is not its syntax but rather the incredible library of primitives for visualization and sta 阅读全文

posted @ 2013-08-02 19:34 bourneli 阅读(425) 评论(0) 推荐(0)

Hive的jion性能分析的相关文章

摘要：Hive中小表与大表关联(join)的性能分析 http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html要点：重复度较小的表（比如纬度表）放在前面，可以使得reduce过程中的检查过程变少，提高效率一骑绝尘引发的思考–关于hive程序员是否需要学习mapreduce http://www.alidata.org/archives/1083要点：使用hive的程序员需要知道MR的原理，就好比使用Java的程序员也需要了解GC的原理阅读全文

posted @ 2013-04-22 20:12 bourneli 阅读(304) 评论(0) 推荐(0)

bourneli(李伯韬)的技术博客

博客搬家了，新的日志会在一数一世界更新！

随笔分类 - 大数据

公告