1)MR
2)spark
3) tez
4) Flink
-
Spark DataSet
摘要:1.DataSet相关概念 Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优点(优化后的执行引擎)。Dataset可以通过JVM对象来构造,然后通过tran
阅读全文
-
spark RDD 的map与flatmap区别说明
摘要:HDFS到HDFS过程 看看map 和flatmap的位置 Flatmap 和map 的定义 map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD 例子: val rdd = sc.parall
阅读全文
-
Spark 模块及常用实例
摘要:Apache Spark Examples These examples give a quick overview of the Spark API. Spark is built on the concept of distributed datasets, which contain arbi
阅读全文