摘要: Spark Streaming 概述 Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力,以吞吐量高和容错能力强著称。 SparkStreaming VS Storm 在Spark老版本中,SparkStreaming的延迟级别达到秒级, 阅读全文
posted @ 2019-03-19 12:53 Striver。 阅读(261) 评论(0) 推荐(0) 编辑
摘要: MLlib 数据挖掘与机器学习 数据挖掘体系 数据挖掘:也就是data mining,是一个很宽泛的概念,也是一个新兴学科,旨在如何从海量数据中挖掘出有用的信息来。 数据挖掘这个工作BI(商业智能)可以做,统计分析可以做,大数据技术可以做,市场运营也可以做,或者用excel分析数据,发现了一些有用的 阅读全文
posted @ 2019-03-19 12:52 Striver。 阅读(873) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 概述 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。 SparkSQL的由来 SparkSQL的前身是Shark。在Hadoop发展过程中,为 阅读全文
posted @ 2019-03-19 12:51 Striver。 阅读(281) 评论(0) 推荐(0) 编辑
摘要: Spark Core DAG概念 有向无环图 Spark会根据用户提交的计算逻辑中的RDD的转换(变换方法)和动作(action方法)来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG。 RDD之间的关系可以从两个维度来理解:一个是RDD是从哪些RDD转换而来,也就是RDD的pare 阅读全文
posted @ 2019-03-19 12:50 Striver。 阅读(268) 评论(0) 推荐(0) 编辑
摘要: Spark架构 为了更好地理解调度,我们先来鸟瞰一下集群模式下的Spark程序运行架构图。 1. Driver Program 用户编写的Spark程序称为Driver Program。每个Driver程序包含一个代表集群环境的SparkContext对象,程序的执行从Driver程序开始,所有操作 阅读全文
posted @ 2019-03-19 12:49 Striver。 阅读(202) 评论(0) 推荐(0) 编辑
摘要: Spark 概述 Spark的技术背景 无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce和Dryad。这些系统将分布式编程简化为自动提供位置感知性调度、容错以及负载均衡,使得大量用户能够在商用集群上分析超大数据集。 大多数现有的集群计算系统都是基于非循 阅读全文
posted @ 2019-03-19 12:48 Striver。 阅读(500) 评论(0) 推荐(0) 编辑
摘要: Hbase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统" 非关系型数据库和关系型数据库 传统关系型数据库的缺陷 1)高并发读写的瓶颈 2)可扩展性的限制 3)事务一致性的负面影响 4)复杂 阅读全文
posted @ 2019-03-19 12:44 Striver。 阅读(279) 评论(0) 推荐(0) 编辑
摘要: storm 实时分析概念 离线分析 通常是 需要一段时间的数据积累 积累到一定数量数据后 开始离线分析 无论数据量多大 离线分析 有开始 也有结束 最终得到一个处理的结果 这样的分析过程 得到的结果是有较大的延迟的 实时分析 通常 数据不停的到来 随着数据的到来 来进行增量的运算 立即得到新数据的处 阅读全文
posted @ 2019-03-19 12:41 Striver。 阅读(747) 评论(0) 推荐(0) 编辑
摘要: Kafka 概述 Kafka是由LinkedIn开发的一个分布式的消息系统,最初是用作LinkedIn的活动流(Activity Stream)和运营数据处理的基础。 活动流数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的 阅读全文
posted @ 2019-03-19 12:39 Striver。 阅读(144) 评论(0) 推荐(0) 编辑
摘要: Flume 概述: Flume最早是Cloudera提供的日志收集系统,后贡献给Apache。所以目前是Apache下的项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。 海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据(source);同时,Flum 阅读全文
posted @ 2019-03-19 12:38 Striver。 阅读(246) 评论(0) 推荐(0) 编辑