随笔 - 21  文章 - 0 评论 - 14 trackbacks - 0

摘要: Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。在Standalone模式中Spark支持...阅读全文
posted @ 2019-06-18 19:14 wangt.cc 阅读(58) 评论(0) 编辑
摘要: SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点。我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法, 比如说 sc.textFile(filepath),程序最后也会调用sc.stop()来退出。让我们来一起看下SparkContext里面到底是如何实现的吧!1 SparkContext内的三大核...阅读全文
posted @ 2019-06-11 23:04 wangt.cc 阅读(86) 评论(0) 编辑
摘要: 之前在 大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 Yarn-Cluster的运行流程。1、独立(Standalone)运行模式独立运行模式是Spark自身实现的资源调度框架,由客户端、Master节点和多个Worker节点组成。其中SparkCo...阅读全文
posted @ 2019-06-06 07:49 wangt.cc 阅读(98) 评论(0) 编辑
摘要: 多年前自己刚来北京找工作的时候,面了一个星期 面了七八家公司才拿到一个offer。而上次跳槽面了不到10家公司基本全过而且都给到了期望的薪资,本来自己在面试前没想到能够这么顺利,回想起来还是自己准备的方法比较得当! 先说前提 此方法适用于培训机构,专科,普通本科毕业的同学,工作经验在1到5年之间。(阅读全文
posted @ 2019-06-04 12:21 wangt.cc 阅读(561) 评论(4) 编辑
摘要: Shuffle本意是 混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle. 在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的阅读全文
posted @ 2019-05-28 12:48 wangt.cc 阅读(148) 评论(0) 编辑
摘要: 本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次, spark出现1次, you出现1次. 先上完整代码: 上面几行代码就把hdfs上的spark.阅读全文
posted @ 2019-05-24 16:57 wangt.cc 阅读(142) 评论(0) 编辑
摘要: Spark On Yarn 有两种运行模式: Yarn - Cluster Yarn - Client 他们的主要区别是: Cluster: Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出. Client: D阅读全文
posted @ 2019-05-21 23:37 wangt.cc 阅读(34) 评论(0) 编辑
摘要: 说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进. Spark概述 MapReduce局限性阅读全文
posted @ 2019-05-19 10:21 wangt.cc 阅读(119) 评论(0) 编辑
摘要: 我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hive等工具, 很少有再写MapReduce的了. 这里整理一下MapReduce中经常用到的二次排序阅读全文
posted @ 2019-05-16 12:17 wangt.cc 阅读(179) 评论(0) 编辑
摘要: mysql索引设计的注意事项(大量示例,收藏再看) 目录 一、索引的重要性 二、执行计划上的重要关注点 (1).全表扫描,检索行数 (2).key,using index(覆盖索引) (3).通过key_len确定究竟使用了复合索引的几个索引字段 (4) order by和Using filesor阅读全文
posted @ 2019-05-13 09:21 wangt.cc 阅读(459) 评论(0) 编辑