摘要: Spark是什么? Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,S 阅读全文
posted @ 2018-10-23 17:56 魏大大 阅读(247) 评论(0) 推荐(0) 编辑
摘要: Apache spark2.1.0 编译 hadoop-2.6-cdh5.11.2 的对应版本 搞了两天,终于把spark编译成功了,把编译过程记录一下 编译失败的坑: 1)linux内存不足,maven编译过程中内存溢出 2)找不到cloudera仓库 3)报各种错误 考虑到maven下载可能会被 阅读全文
posted @ 2018-10-23 11:43 魏大大 阅读(366) 评论(0) 推荐(0) 编辑