随笔 - 25  文章 - 0 评论 - 14 trackbacks - 0

摘要:分享一下自己整理的超多电子书, 其中包括:Java,Hadoop,Spark,Linux,Hbase,Hive,机器学习,区块链 目录如下: 1 Java 基础 2 Java 虚拟机 3 Java 并发 4 Docker 体系 5 Hadoop 6 Hbase 7 Hive 8 区块链 9 Spar 阅读全文
posted @ 2019-06-21 09:49 wangt.cc 阅读 (118) 评论 (0) 编辑
摘要:参加工作这么长时间了,工作中遇到了不少技能都是看视频教程学习的,相比较看书而言看视频确实比较容易理解。分享一下自己看过的和收集的视频教程。 资源包括: 大数据方面的Hadoop(云帆,小象学院,八斗学院) Spark从入门到精通278讲 机器学习(这个很全) java方面:Dubbo,Maven,马 阅读全文
posted @ 2019-06-21 09:47 wangt.cc 阅读 (151) 评论 (0) 编辑
摘要:多年前自己刚来北京找工作的时候,面了一个星期 面了七八家公司才拿到一个offer。而上次跳槽面了不到10家公司基本全过而且都给到了期望的薪资,本来自己在面试前没想到能够这么顺利,回想起来还是自己准备的方法比较得当! 先说前提 此方法适用于培训机构,专科,普通本科毕业的同学,工作经验在1到5年之间。( 阅读全文
posted @ 2019-06-04 12:21 wangt.cc 阅读 (652) 评论 (4) 编辑
摘要:一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以我决定自己动手搞一搞. 爬取已经完成,文末有 python的源码和妹子图片的百度云地址 二.准备: 阅读全文
posted @ 2018-09-14 12:11 wangt.cc 阅读 (182) 评论 (0) 编辑
摘要:上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。重点是这里的task分配算法。如下图是DagScheduler中把TaskSet提交到TaskScheduler:这里我们以... 阅读全文
posted @ 2019-07-14 11:29 wangt.cc 阅读 (79) 评论 (0) 编辑
摘要:DAGScheduler的主要作用有2个: 一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行) 二、提交任务 以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。 一、如何把Job划分成多个Stag 阅读全文
posted @ 2019-06-26 09:45 wangt.cc 阅读 (97) 评论 (0) 编辑
摘要:分享一下自己整理的超多电子书, 其中包括:Java,Hadoop,Spark,Linux,Hbase,Hive,机器学习,区块链 目录如下: 1 Java 基础 2 Java 虚拟机 3 Java 并发 4 Docker 体系 5 Hadoop 6 Hbase 7 Hive 8 区块链 9 Spar 阅读全文
posted @ 2019-06-21 09:49 wangt.cc 阅读 (118) 评论 (0) 编辑
摘要:参加工作这么长时间了,工作中遇到了不少技能都是看视频教程学习的,相比较看书而言看视频确实比较容易理解。分享一下自己看过的和收集的视频教程。 资源包括: 大数据方面的Hadoop(云帆,小象学院,八斗学院) Spark从入门到精通278讲 机器学习(这个很全) java方面:Dubbo,Maven,马 阅读全文
posted @ 2019-06-21 09:47 wangt.cc 阅读 (151) 评论 (0) 编辑
摘要:Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。在Standalone模式中Spark支持... 阅读全文
posted @ 2019-06-18 19:14 wangt.cc 阅读 (84) 评论 (0) 编辑
摘要:SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点。我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法, 比如说 sc.textFile(filepath),程序最后也会调用sc.stop()来退出。让我们来一起看下SparkContext里面到底是如何实现的吧!1 SparkContext内的三大核... 阅读全文
posted @ 2019-06-11 23:04 wangt.cc 阅读 (112) 评论 (0) 编辑
摘要:之前在 大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 Yarn-Cluster的运行流程。1、独立(Standalone)运行模式独立运行模式是Spark自身实现的资源调度框架,由客户端、Master节点和多个Worker节点组成。其中SparkCo... 阅读全文
posted @ 2019-06-06 07:49 wangt.cc 阅读 (153) 评论 (0) 编辑
摘要:多年前自己刚来北京找工作的时候,面了一个星期 面了七八家公司才拿到一个offer。而上次跳槽面了不到10家公司基本全过而且都给到了期望的薪资,本来自己在面试前没想到能够这么顺利,回想起来还是自己准备的方法比较得当! 先说前提 此方法适用于培训机构,专科,普通本科毕业的同学,工作经验在1到5年之间。( 阅读全文
posted @ 2019-06-04 12:21 wangt.cc 阅读 (652) 评论 (4) 编辑
摘要:Shuffle本意是 混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle. 在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的 阅读全文
posted @ 2019-05-28 12:48 wangt.cc 阅读 (181) 评论 (0) 编辑
摘要:本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次, spark出现1次, you出现1次. 先上完整代码: 上面几行代码就把hdfs上的spark. 阅读全文
posted @ 2019-05-24 16:57 wangt.cc 阅读 (166) 评论 (0) 编辑