摘要: 本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言 阅读全文
posted @ 2018-01-16 15:02 anlcy 阅读(1039) 评论(0) 推荐(0)
摘要: 我们可以选择使用spark-shell,spark-submit或者编写代码的方式运行Spark。在产品环境下,利用spark-submit将jar提交到spark,是较为常见的做法。但是在开发期间,每次都需要编译jar去做提交是一件麻烦事儿。尤其是在IDE例如IntelliJ Idea下,更直接的 阅读全文
posted @ 2018-01-16 14:09 anlcy 阅读(1662) 评论(0) 推荐(0)
摘要: 我们在初始化SparkConf时,或者提交Spark任务时,都会有master参数需要设置,如下: conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) /bin/spark-sub 阅读全文
posted @ 2018-01-16 13:55 anlcy 阅读(4282) 评论(0) 推荐(1)
摘要: Spark Streaming基于Spark处理流式数据的框架,在MapReduce中,由于其分布式特性——所有数据需要读写磁盘、启动job耗时较大,难以满足时效性要求。而Streaming能够在Spark上生根发芽的原因是因为其内存特性、低延时的执行引擎和高速的执行效率。Streaming的原理是 阅读全文
posted @ 2018-01-16 10:41 anlcy 阅读(292) 评论(0) 推荐(0)