随笔档案「2018年9月」 - 子墨言良

Spark编程模型(下)

摘要：创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD； Pair RDD通常用来进行聚合计算； Pair RDD通常由普通RDD做ETL转化而来。 Python： pairs = lines.map(lambda x: (x.split(" ")[0], x 阅读全文

posted @ 2018-09-19 16:03 子墨言良阅读(238) 评论(0) 推荐(0)

Spark编程模型(中)

摘要：创建RDD 方式一：从集合创建RDD makeRDD Parallelize 注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。方式二：读取外部存储创建RDD Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型阅读全文

posted @ 2018-09-18 14:47 子墨言良阅读(177) 评论(0) 推荐(0)

Spark 编程模型(上)

摘要：初识RDD 什么是RDD？定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applic 阅读全文

posted @ 2018-09-13 16:51 子墨言良阅读(316) 评论(0) 推荐(0)

Spark编程环境搭建及WordCount实例

摘要：基于Intellij IDEA搭建Spark开发环境搭建基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 · 阅读全文

posted @ 2018-09-12 17:39 子墨言良阅读(2535) 评论(0) 推荐(0)

IDEA右键新建时没有Java Class选项

摘要：今天在IDEA中新建了一个maven工程，但是在我想要新建Class时发件右键菜单里竟然没有Java Class选项！如下图所示：如上图红圈所示，我们可以根据对项目的任意目录进行这五种目录类型标注，这个知识点非常非常重要，必须会。 Sources：一般用于标注类似 src 这种可编译目录。有时候阅读全文

posted @ 2018-09-11 16:54 子墨言良阅读(53532) 评论(2) 推荐(9)

Spark最简安装

摘要：该环境适合于学习使用的快速Spark环境，采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装，这将在后面进行介绍。 Spark预编译安装包下载——Apache版下载地址：http://spark.apache.org/downloads.html ( 阅读全文

posted @ 2018-09-11 11:13 子墨言良阅读(432) 评论(0) 推荐(0)

Spark 概述

摘要：Spark 是什么？ ● 官方文档解释：Apache Spark is a fast and general engine for large-scale data processing. 通俗的理解：Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理阅读全文

posted @ 2018-09-10 15:55 子墨言良阅读(594) 评论(2) 推荐(0)

子墨言良

09 2018 档案

公告