随笔分类 - Spark
摘要:许多应用需要即时处理收到的数据,Spark Streaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。
阅读全文
摘要:9.1 连接Spark SQL Apache Hive是Hadoop上SQL的引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。如果你不能引入Hive依赖,那就应该使用工件spark-sql-2.10来替代spark-hive-2.10。 9.2 在应用中使用Spark SQL 要以
阅读全文
摘要:8.1 使用SparkConf配置Spark Spark中最主要的配置机制是用过SparkConf类对Spark进行配置,当创建出一个SparkContext时,就需要创建出一个SparkConf的实例。 在Python中使用SparkConf创建一个应用 Spark中的每个配置选项都是基于字符串形
阅读全文
摘要:7.2 Spark运行时架构 Spark集群采用的是主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点。驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的Java程序运行。 7.2.1 驱
阅读全文
摘要:6.1 简介 累加器:用来对信息进行聚合; 广播变量:用来高效分发较大的对象 6.2 累加器 通常在向Spark传递函数时,可以使用驱动器程序中定义的变量,但是集群中运行的每个人物都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。Spark的两个共享变量,累加器和广播变量
阅读全文
摘要:5.1 文件格式 5.2.1文本文件 当我们将一个文本文件读取为RDD时,输入的每一行都会成为RDD的一个元素,也可以将多个完整文本文件一次性读取为一个pair RDD,其中键是文件名,值是文件内容。 在Python中读取一个文本文件 如果多个输入文件以一个包含数据所有部分的目录的形式出现,可以用两
阅读全文
摘要:4.1动机 键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合计算。我们一般要先通过一些初始ETL操作来讲数据转化为键值对形式。 Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为pair RDD,pair RDD是很多程序的构成要素,因为他们
阅读全文
摘要:1.RDD基础 弹性分布式数据集,简称RDD,是一个不可变的分布式对象集合。在Spark中,对数据的所有操作不外乎创建RDD,转化已有RDD以及调用RDD操作进行求值。 每一个RDD都被分为多个分区,这些分区运行在集群中的不同节点上,RDD可以包含Python,Java,Scala中任意类型的对象,
阅读全文
摘要:2.1 Spark核心概念简介 驱动器程序通过一个SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。shell启动时已经创建了一个SparkContext对象,是一个叫做sc的变量。一旦有了SparkContext,你就可以用它来创建RDD。要执行这些操作,驱动器程序一
阅读全文
摘要:1.1 Spark是什么 Spark是一个用来实现快速而通用的集群计算的平台。Spark扩展了广泛使用的MapReduce平台计算模型,而且高效地支持更多模式,包括交互式查询和流处理。Spark的一个主要的特点就是能够在内存中进行计算。 1.2 一个大一统的软件栈 Spark的核心是一个对由很多计算
阅读全文

浙公网安备 33010602011771号