随笔分类 - 分布式

Spark常见的问题以及解决方案

摘要：Spark为什么比Hadoop要快？ Spark比hadoop快的原因，我认为主要是spark的DAG机制优于hadoop太多，spark的DAG机制以及RDD的设计避免了很多落盘的操作，在窄依赖的情况下可以在内存中完成end to end的计算，相比于hadoop的map reduce编程模型来说阅读全文

posted @ 2020-08-26 00:56 real-zhouyc 阅读(1564) 评论(0) 推荐(0)

Spark

摘要：Spark结构文章参考自厦门大学子雨大数据课程 Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（Hive 阅读全文

posted @ 2020-03-16 17:03 real-zhouyc 阅读(332) 评论(0) 推荐(0)

real-zhouyc

随笔分类 - 分布式

公告