Spark Streaming之三:DStream解析
摘要:DStream 1.1基本说明 1.1.1 Duration Spark Streaming的时间类型,单位是毫秒; 生成方式如下: 1)new Duration(milli seconds) 输入毫秒数值来生成; 2)seconds(seconds) 输入秒数值来生成; 3)Minutes(min
阅读全文
posted @
2015-04-04 10:15
duanxz
阅读(1626)
推荐(0)
Spark Streaming之二:StreamingContext解析
摘要:1.1 创建StreamingContext对象 1.1.1通过SparkContext创建 源码如下: 第一参数为sparkContext对象,第二个参数为批次时间; 创建实例: val ssc = new StreamingContext(sc, Seconds(5)) 1.1.2通过Spark
阅读全文
posted @
2015-04-03 23:48
duanxz
阅读(3923)
推荐(0)
二、Spark在Windows下的环境搭建
摘要:由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故
阅读全文
posted @
2014-03-26 18:21
duanxz
阅读(2022)
推荐(0)
Spark Streaming之一:整体介绍
摘要:提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间
阅读全文
posted @
2014-03-19 15:25
duanxz
阅读(1254)
推荐(0)
RDD之一:总体介绍
摘要:摘要 本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机
阅读全文
posted @
2014-03-19 14:37
duanxz
阅读(2202)
推荐(0)
demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis
摘要:基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基
阅读全文
posted @
2014-03-05 12:55
duanxz
阅读(9540)
推荐(1)
demo1 spark streaming 接收 kafka 数据java代码WordCount示例
摘要:1. 首先启动zookeeper windows上的安装见zk 02之 Windows安装和使用zookeeper 启动后见: 2. 启动kafka windows的安装kafka见Windows上搭建Kafka运行环境,启动后如下图: 1. 首先启动zookeeper windows上的安装见zk
阅读全文
posted @
2014-03-04 18:08
duanxz
阅读(1307)
推荐(0)