摘要:
Spark SQL Shark是SparkSQL的前身,它发布于3年前,那个时候Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业,鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 Shark即Hive on Spark,本质上是 阅读全文
摘要:
Spark Core 前面介绍了Spark Core的基本情况,以下总结一下Spark内核架构: l 提供了有向无环图(DAG)的分布式并行计算框架,并提供Cache机制来支持多次迭代计算或者数据共享,大大减少迭代计算之间读取数据局的开销,这对于需要进行多次迭代的数据挖掘和分析性能有很大提升 l 在 阅读全文