随笔分类 -  Spark

Apache Spark is a unified analytics engine for large-scale data processing. Spark是用于大规模数据处理的统一分析引擎。 是基于内存计算的大数据分布式计算框架。
摘要:第2章 RDD编程(2.3) 2.3 TransFormation 基本RDD Pair类型RDD (伪集合操作 交、并、补、笛卡尔积都支持) 2.3.1 map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 2.3.2 mapPartitions(func)  阅读全文
posted @ 2019-08-05 01:21 DiYong 阅读(333) 评论(0) 推荐(0)
摘要:第2章 RDD编程 2.1 编程模型 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系 阅读全文
posted @ 2019-08-05 01:13 DiYong 阅读(235) 评论(0) 推荐(0)
摘要:第1章 RDD概念 弹性分布式数据集 1.1 RDD为什么会产生 RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢? Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备 阅读全文
posted @ 2019-08-04 02:17 DiYong 阅读(1221) 评论(0) 推荐(0)
摘要:第4章 IDEA环境应用 spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。 4.1 在IDEA中编写WordCount程序 1)创建一个Mave 阅读全文
posted @ 2019-08-04 02:04 DiYong 阅读(152) 评论(0) 推荐(0)
摘要:Spark安装地址、Standalone模式安装、JobHistoryServer配置、HA配置、Yarn模式安装 阅读全文
posted @ 2019-08-03 01:59 DiYong 阅读(265) 评论(0) 推荐(0)
摘要:第2章 Spark角色介绍及运行模式 2.1 集群角色 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点:Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Worker节点,Driver,Appl 阅读全文
posted @ 2019-08-03 01:32 DiYong 阅读(953) 评论(0) 推荐(0)
摘要:第1章 Spark概述 1.1 什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。 目前,Spark生态系统 阅读全文
posted @ 2019-08-03 01:26 DiYong 阅读(382) 评论(0) 推荐(0)
摘要:spark启动slave时提示 JAVA_HOME is not set 解决方法: 在sbin目录spark-config.sh 中添加自己的jdk 路径export JAVA_HOME=/home/hadoop/modules/jdk 启动: sbin/start-all.sh 阅读全文
posted @ 2019-08-03 01:06 DiYong 阅读(213) 评论(0) 推荐(0)