摘要:Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. 它可以非常容易的构建一个可扩展、具有容错机制的流式应用 阅读全文
posted @ 2018-07-26 15:55 jiFeng丶 阅读 (2710) 评论 (0) 编辑
摘要:Kafka介绍 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高吞吐量、低延迟的平台。 Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上 阅读全文
posted @ 2018-07-26 14:39 jiFeng丶 阅读 (132) 评论 (0) 编辑
摘要:1.官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安装 1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 2.安装Spark:解压Spark 阅读全文
posted @ 2018-07-26 12:43 jiFeng丶 阅读 (59) 评论 (0) 编辑
摘要:sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优 阅读全文
posted @ 2018-07-26 12:35 jiFeng丶 阅读 (187) 评论 (0) 编辑
摘要:通过spark实现点击流日志分析案例 1. 访问的pv 2. 访问的uv 3. 访问的topN 通过Spark实现ip地址查询 1. 需求分析 在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。 因此,我们需 阅读全文
posted @ 2018-07-26 01:12 jiFeng丶 阅读 (453) 评论 (0) 编辑
摘要:1、RDD操作详解 启动spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对 阅读全文
posted @ 2018-07-26 00:59 jiFeng丶 阅读 (775) 评论 (0) 编辑
摘要:RDD弹性分布式数据集 RDD概述 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个 阅读全文
posted @ 2018-07-26 00:49 jiFeng丶 阅读 (966) 评论 (0) 编辑
摘要:执行第一个spark程序 普通模式提交任务: 该算法是利用蒙特·卡罗算法求圆周率PI,通过计算机模拟大量的随机数,最终会计算出比较精确的π。 高可用模式提交任务: 在高可用模式下,因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口 阅读全文
posted @ 2018-07-19 15:00 jiFeng丶 阅读 (146) 评论 (0) 编辑
摘要:Spark概述 什么是Spark (官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spa 阅读全文
posted @ 2018-07-19 14:45 jiFeng丶 阅读 (156) 评论 (0) 编辑
摘要:项目概述 需求 目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。 Spark 的RPC 阅读全文
posted @ 2018-07-18 00:56 jiFeng丶 阅读 (1035) 评论 (0) 编辑