摘要:本文档是学习RDD经典论文《Resilient Distributed Datasets: A Fault Tolerant Abstraction for In Memory Cluster Computing》的学习笔记。 date:2016/8/3 author:wangxl 1 引言 一种分
阅读全文
随笔分类 - 011 Spark
摘要:本文档主要收集大数据技术相关经典文章(译文),经典读10遍胜于普通文章读千万篇。 "1.RDD:基于内存的集群计算容错抽象" "2.大型集群上的快速和通用数据处理架构"
阅读全文
摘要:本文档基于Spark2.0,对spark启动脚本进行分析。 date:2016/8/3 author:wangxl Spark配置&启动脚本分析 我们主要关注3类文件,配置文件,启动脚本文件以及自带shell。 1 文件概览 conf/ ├── docker.properties.template
阅读全文
摘要:本文档基于IEDA构建spark maven应用。 date: 2016/8/1 author: wangxl 1.下载IDEA https://www.jetbrains.com/idea/ 2.安装Scala插件 Plugins Scala Install Plugin 3.生成骨架 3.1 m
阅读全文
摘要:本文档综合现在市面上的各类spark书籍,概括spark技术核心,“要事第一”原则,只抓核心,才能领悟实质。 spark核心分类: 1.环境配置相关(编译、搭建、配置、启动脚本) 1.1 源码编译 1.2 集群搭建 1.3 集群配置,脚本分析 1.4 IDE环境构建 2.Spark基础 2.1 RD
阅读全文
摘要:Spark2.0编译 1 前言 Spark2.0正式版于今天正式发布,本文基于CDH5.0.2的Spark编译。 2 编译步骤 2.1 下载源码 wget https://github.com/apache/spark/archive/v2.0.0.tar.gz 2.2 解压配置 基于CDH5.0.
阅读全文
摘要:Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git b branch 1.6 1.2 修改pom文件 增加cdh5.0.2相关profile,如下: cdh5.0.2 2.3.0 cdh5.0.2 0.9
阅读全文

浙公网安备 33010602011771号