摘要:
大致可以将大数据的计算引擎分成了 4 代。 第一代的计算引擎,无疑就是Hadoop承载的MapReduce。它将每个JobApp都被设计为两个阶段,分别为Map和Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个App的串联,才能完成一个完整的算法,例如迭代计 阅读全文
摘要:
背景 SQL作为一门标准的、通用的、简单的DSL,在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位,而Spark2.0中的SparkSQL也支持ANSI-SQL 2003标准。因此SparkSQL在大数据分析中的地位不言而喻。 本文将通过分析一条SQL在Spa 阅读全文