随笔分类 -  分布式

摘要:Spark为什么比Hadoop要快? Spark比hadoop快的原因,我认为主要是spark的DAG机制优于hadoop太多,spark的DAG机制以及RDD的设计避免了很多落盘的操作,在窄依赖的情况下可以在内存中完成end to end的计算,相比于hadoop的map reduce编程模型来说 阅读全文
posted @ 2020-08-26 00:56 real-zhouyc 阅读(1564) 评论(0) 推荐(0)
摘要:Spark结构 文章参考自厦门大学子雨大数据课程 Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(Hive 阅读全文
posted @ 2020-03-16 17:03 real-zhouyc 阅读(332) 评论(0) 推荐(0)