随笔分类 - Spark

Apache Spark is a unified analytics engine for large-scale data processing. Spark是用于大规模数据处理的统一分析引擎。是基于内存计算的大数据分布式计算框架。

摘要：第2章 RDD编程（2.3） 2.3 TransFormation 基本RDD Pair类型RDD （伪集合操作交、并、补、笛卡尔积都支持） 2.3.1 map(func) 返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成 2.3.2 mapPartitions(func) 阅读全文

posted @ 2019-08-05 01:21 DiYong 阅读(333) 评论(0) 推荐(0)

第2章 RDD编程（2.1-2.2）

摘要：第2章 RDD编程 2.1 编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系阅读全文

posted @ 2019-08-05 01:13 DiYong 阅读(235) 评论(0) 推荐(0)

第1章 RDD概念弹性分布式数据集

摘要：第1章 RDD概念弹性分布式数据集 1.1 RDD为什么会产生 RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢？ Hadoop的MapReduce是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备阅读全文

posted @ 2019-08-04 02:17 DiYong 阅读(1221) 评论(0) 推荐(0)

4 IDEA环境应用

摘要：第4章 IDEA环境应用 spark shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖。 4.1 在IDEA中编写WordCount程序 1）创建一个Mave 阅读全文

posted @ 2019-08-04 02:04 DiYong 阅读(152) 评论(0) 推荐(0)

3 Spark 集群安装

摘要：Spark安装地址、Standalone模式安装、JobHistoryServer配置、HA配置、Yarn模式安装阅读全文

posted @ 2019-08-03 01:59 DiYong 阅读(265) 评论(0) 推荐(0)

2 Spark角色介绍及运行模式

摘要：第2章 Spark角色介绍及运行模式 2.1 集群角色从物理部署层面上来看，Spark主要分为两种类型的节点，Master节点和Worker节点：Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Appl 阅读全文

posted @ 2019-08-03 01:32 DiYong 阅读(953) 评论(0) 推荐(0)

1 Spark概述

摘要：第1章 Spark概述 1.1 什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统阅读全文

posted @ 2019-08-03 01:26 DiYong 阅读(382) 评论(0) 推荐(0)

Spark中遇到的问题

摘要：spark启动slave时提示 JAVA_HOME is not set 解决方法：在sbin目录spark-config.sh 中添加自己的jdk 路径export JAVA_HOME=/home/hadoop/modules/jdk 启动： sbin/start-all.sh 阅读全文

posted @ 2019-08-03 01:06 DiYong 阅读(213) 评论(0) 推荐(0)

Diyo

随笔分类 - Spark

公告