04 2015 档案

摘要:本文目的 最近使用spark处理较大的数据时,遇到了分区2G限制的问题(ken)。找到了解决方法,并且在网上收集了一些资料,记录在这里,作为备忘。 问题现象 遇到这个问题时,spark日志会报如下的日志, 片段1 15/04/16 14:13:03 WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, ... 阅读全文
posted @ 2015-04-25 16:22 bourneli 阅读(10138) 评论(0) 推荐(0)
摘要:背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD ... 阅读全文
posted @ 2015-04-05 16:11 bourneli 阅读(52712) 评论(3) 推荐(2)