摘要:        
目录: 第一部分:操作系统准备工作: 1. 安装部署CentOS7.3 1611 2. CentOS7软件安装(net-tools, wget, vim等) 3. 更新CentOS7的Yum源,更新软件速度更快 4. CentOS 用户配置,Sudo授权 第二部分:Java环境准备 1. JDK1.    阅读全文
posted @ 2017-05-07 23:48
Jonson Li
阅读(695)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点:SparkSession 2.2 创建DataFrames 2.3 非强类型结果集操作 2.4 程序化执行SQL查询 2.5 全局临时视图 2.6 创建DataSets 2.7 与    阅读全文
posted @ 2017-05-07 21:40
Jonson Li
阅读(822)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.Kafka基础概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知识 1.2.2.架构和原理 1.2.3.基本概念 1.2.4.kafka特点 2.Kafka初体验 2.1 环境准备 2.2 Kafka小试牛刀 2.2.1单个broker初体验 2.2.2 多个broker初体    阅读全文
posted @ 2017-05-07 21:39
Jonson Li
阅读(334)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性     阅读全文
posted @ 2017-05-07 21:37
Jonson Li
阅读(1704)
评论(1)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark on Yarn运行流程 2.5 WordCount执行原理 3.Spark计算引擎原理 3.1 Spark内部原理 3.    阅读全文
posted @ 2017-05-07 21:36
Jonson Li
阅读(681)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.遗留问题答疑 1.1 典型问题解答 1.2 知识点回顾 2.Spark编程基础 2.1 Spark开发四部曲 2.2 RDD典型实例 2.3 非RDD典型实例 3.问题解答 4.参考资料 每一次答疑阶段,我都会站在老师的角度去思考一下,如果是我,我应该怎么回答,每每如此,不禁吓出一身冷    阅读全文
posted @ 2017-05-07 21:34
Jonson Li
阅读(458)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 2.2Hadoop计算框架介绍 3.Spark概述 3.1 Spark出现的技术背景 3.2 Spark核心概念介绍 4.    阅读全文
posted @ 2017-05-07 21:32
Jonson Li
阅读(619)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流式处理技术关键技术 3.1流式处理系统管道构建 3.2流式处理系统关键技术 3.3用户行为分析系统介绍 4.问题答疑 5.    阅读全文
posted @ 2017-05-07 21:29
Jonson Li
阅读(620)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 1.Spark背景介绍 2.Spark是什么 3.Spark有什么 4.Spark部署 4.1.Spark部署的2方面 4.2.Spark编译 4.3.Spark Standalone部署 4.4.Standalone HA配置 4.5.伪分布式部署 5.Spark任务提交 5.1.Spa    阅读全文
posted @ 2017-05-07 21:28
Jonson Li
阅读(605)
评论(0)
推荐(0)
        
            
        
        
摘要:        
本节内容 · Spark为什么要分区 · Spark分区原则及方法 · Spark分区案例 · 参考资料 一、Spark为什么要分区 分区概念:分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是    阅读全文
posted @ 2017-05-07 21:27
Jonson Li
阅读(6315)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号