上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 45 下一页
摘要: Spark 的shuffle 服务是spark的核心,本文介绍了非ExternalShuffleClient的方式,看BlockService的整个架构。ShuffleClient是整个框架的基础,有init方法和fetchBlock两个方法。 BlockFetchingListener接口,onB 阅读全文
posted @ 2018-06-14 21:47 大葱拌豆腐 阅读(1782) 评论(0) 推荐(0)
摘要: 对性能消耗的原理详解 在分布式系统中,数据分布在不同的节点上,每一个节点计算一部份数据,如果不对各个节点上独立的部份进行汇聚的话,我们计算不到最终的结果。我们需要利用分布式来发挥Spark本身并行计算的能力,而后续又需要计算各节点上最终的结果,所以需要把数据汇聚集中,这就会导致Shuffle,这也是 阅读全文
posted @ 2018-06-14 21:28 大葱拌豆腐 阅读(693) 评论(0) 推荐(0)
摘要: 一、概述 将公司集群升级到Yarn已经有一段时间,自己也对Yarn也研究了一段时间,现在开始记录一下自己在研究Yarn过程中的一些笔记。这篇blog主要主要从大体上说说Yarn的基本架构以及其各个组件的功能。另外,主要将Yarn和MRv1做详细对比,包括Yarn相对于MRv1的各种改进。最后,大概说 阅读全文
posted @ 2018-06-14 18:12 大葱拌豆腐 阅读(4858) 评论(1) 推荐(2)
摘要: Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的;而Spark Task则是基于线程模型的。 多进程模型和多线程模型 所谓的多进程模型和多线程模型,指的是同一个节点上多个任务的运行模式。无论是MapReduce和Spark,整体上看都是多进程的:MapRedu 阅读全文
posted @ 2018-06-14 17:20 大葱拌豆腐 阅读(2072) 评论(0) 推荐(0)
摘要: 本文主要简述spark checkpoint机制,快速把握checkpoint机制的来龙去脉,至于源码可以参考我的下一篇文章。 1、Spark core的checkpoint 1)为什么checkpoint? 分布式计算中难免因为网络,存储等原因出现计算失败的情况,RDD中的lineage信息常用来 阅读全文
posted @ 2018-06-14 16:50 大葱拌豆腐 阅读(1557) 评论(0) 推荐(0)
摘要: 简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统。 HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复 阅读全文
posted @ 2018-06-14 14:49 大葱拌豆腐 阅读(224) 评论(0) 推荐(0)
摘要: HDFS的工作机制 概述 HDFS集群分为两大角色:NameNode、DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上 每一个文件块可以有多个副本,并 阅读全文
posted @ 2018-06-14 14:42 大葱拌豆腐 阅读(408) 评论(0) 推荐(0)
摘要: Spark SQL支持两种RDDs转换为DataFrames的方式 使用反射获取RDD内的Schema 当已知类的Schema的时候,使用这种基于反射的方法会让代码更加简洁而且效果也很好。 通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema,这种方式会让代码比较冗长。 阅读全文
posted @ 2018-06-13 21:06 大葱拌豆腐 阅读(396) 评论(0) 推荐(0)
摘要: 环境: Spark2.1.0 、Hadoop-2.7.5 代码运行系统:Win 7在运行Spark程序写出文件(savaAsTextFile)的时候,我遇到了这个错误: 查到的还是什么window远程访问Hadoop的错误,最后查阅官方文档HADOOP-11064 后来在网上找到解决方案是:由于ha 阅读全文
posted @ 2018-06-13 09:25 大葱拌豆腐 阅读(5386) 评论(1) 推荐(0)
摘要: 一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: 二:实现 Java版: 1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下: 2.转换,具体代码如下 scala版本: 注:1.上面代码全都已经测试通过,测试的环境为spark2 阅读全文
posted @ 2018-06-12 14:20 大葱拌豆腐 阅读(4028) 评论(0) 推荐(0)
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 45 下一页