随笔分类 -  Spark

摘要:一、梗概 即时处理流式数据; Spark Streaming 使用 离散化流(discretized stream) DStream作为抽象表示; DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些 RDD所组成的序列 (因此 得名 阅读全文
posted @ 2017-07-03 01:54 mzzcy 阅读(167) 评论(0) 推荐(0)
摘要:和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构 阅读全文
posted @ 2017-07-02 23:41 mzzcy 阅读(127) 评论(0) 推荐(0)
摘要:仅作《Spark快速大数据分析》学习笔记 定义:Spark是一个用来实现 快速 而 通用 的集群计算平台;(通用的大数据处理引擎;) 改进了原Hadoop MapReduce处理模型,体现在三方面: a. 速度;(内存计算) b. 不仅支持批处理,还支持交互式查询(速度快的成果)、流式计算、机器学习 阅读全文
posted @ 2017-07-02 15:04 mzzcy 阅读(255) 评论(0) 推荐(0)