大葱拌豆腐 - 博客园

2018年6月14日

摘要： Spark 的shuffle 服务是spark的核心，本文介绍了非ExternalShuffleClient的方式，看BlockService的整个架构。ShuffleClient是整个框架的基础，有init方法和fetchBlock两个方法。 BlockFetchingListener接口，onB 阅读全文

posted @ 2018-06-14 21:47 大葱拌豆腐阅读(1788) 评论(0) 推荐(0)

Spark Shuffle调优原理和最佳实践

摘要：对性能消耗的原理详解在分布式系统中，数据分布在不同的节点上，每一个节点计算一部份数据，如果不对各个节点上独立的部份进行汇聚的话，我们计算不到最终的结果。我们需要利用分布式来发挥Spark本身并行计算的能力，而后续又需要计算各节点上最终的结果，所以需要把数据汇聚集中，这就会导致Shuffle，这也是阅读全文

posted @ 2018-06-14 21:28 大葱拌豆腐阅读(695) 评论(0) 推荐(0)

Yarn框架和工作流程研究

摘要：一、概述将公司集群升级到Yarn已经有一段时间，自己也对Yarn也研究了一段时间，现在开始记录一下自己在研究Yarn过程中的一些笔记。这篇blog主要主要从大体上说说Yarn的基本架构以及其各个组件的功能。另外，主要将Yarn和MRv1做详细对比，包括Yarn相对于MRv1的各种改进。最后，大概说阅读全文

posted @ 2018-06-14 18:12 大葱拌豆腐阅读(4861) 评论(1) 推荐(2)

Hadoop MapReduce Task的进程模型与Spark Task的线程模型

摘要： Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的；而Spark Task则是基于线程模型的。多进程模型和多线程模型所谓的多进程模型和多线程模型，指的是同一个节点上多个任务的运行模式。无论是MapReduce和Spark，整体上看都是多进程的：MapRedu 阅读全文

posted @ 2018-06-14 17:20 大葱拌豆腐阅读(2081) 评论(0) 推荐(0)

Spark checkpoint机制简述

摘要：本文主要简述spark checkpoint机制，快速把握checkpoint机制的来龙去脉,至于源码可以参考我的下一篇文章。 1、Spark core的checkpoint 1）为什么checkpoint？分布式计算中难免因为网络，存储等原因出现计算失败的情况，RDD中的lineage信息常用来阅读全文

posted @ 2018-06-14 16:50 大葱拌豆腐阅读(1560) 评论(0) 推荐(0)

HDFS的运行原理

摘要：简介 HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统。 HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复阅读全文

posted @ 2018-06-14 14:49 大葱拌豆腐阅读(228) 评论(0) 推荐(0)

HDFS的工作流程分析

摘要： HDFS的工作机制概述 HDFS集群分为两大角色：NameNode、DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本，并阅读全文

posted @ 2018-06-14 14:42 大葱拌豆腐阅读(411) 评论(0) 推荐(0)

2018年6月13日

DataFrames与RDDs的相互转换

摘要： Spark SQL支持两种RDDs转换为DataFrames的方式使用反射获取RDD内的Schema 当已知类的Schema的时候，使用这种基于反射的方法会让代码更加简洁而且效果也很好。通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema，这种方式会让代码比较冗长。阅读全文

posted @ 2018-06-13 21:06 大葱拌豆腐阅读(399) 评论(0) 推荐(0)

java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V

摘要：环境： Spark2.1.0 、Hadoop-2.7.5 代码运行系统:Win 7在运行Spark程序写出文件(savaAsTextFile)的时候，我遇到了这个错误：查到的还是什么window远程访问Hadoop的错误，最后查阅官方文档HADOOP-11064 后来在网上找到解决方案是:由于ha 阅读全文

posted @ 2018-06-13 09:25 大葱拌豆腐阅读(5389) 评论(1) 推荐(0)

2018年6月12日

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

摘要：一：准备数据源在项目下新建一个student.txt文件，里面的内容为：二：实现 Java版： 1.首先新建一个student的Bean对象，实现序列化和toString()方法，具体代码如下： 2.转换，具体代码如下 scala版本：注：1.上面代码全都已经测试通过，测试的环境为spark2 阅读全文

posted @ 2018-06-12 14:20 大葱拌豆腐阅读(4035) 评论(0) 推荐(0)

公告