09 2018 档案
摘要:创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD; Pair RDD通常用来进行聚合计算; Pair RDD通常由普通RDD做ETL转化而来。 Python: pairs = lines.map(lambda x: (x.split(" ")[0], x
阅读全文
摘要:创建RDD 方式一:从集合创建RDD makeRDD Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型
阅读全文
摘要:初识RDD 什么是RDD? 定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applic
阅读全文
摘要:基于Intellij IDEA搭建Spark开发环境搭建 基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 ·
阅读全文
摘要:今天在IDEA中新建了一个maven工程,但是在我想要新建Class时发件右键菜单里竟然没有Java Class选项!如下图所示: 如上图红圈所示,我们可以根据对项目的任意目录进行这五种目录类型标注,这个知识点非常非常重要,必须会。 Sources: 一般用于标注类似 src 这种可编译目录。有时候
阅读全文
摘要:该环境适合于学习使用的快速Spark环境,采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装,这将在后面进行介绍。 Spark预编译安装包下载——Apache版 下载地址:http://spark.apache.org/downloads.html (
阅读全文
摘要:Spark 是什么? ● 官方文档解释:Apache Spark is a fast and general engine for large-scale data processing. 通俗的理解:Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理
阅读全文

浙公网安备 33010602011771号