ralgo

2021年6月27日

摘要：原文链接：https://0x0fff.com/spark-misconceptions/ 这篇文章我主要将关于Spark的三大误解： 1、Spark是一种内存固化的技术 2、Spark比Hadoop快10-100倍 3、在数据分析市场，Spark创新地引进新的方法 Spark是一种内存固化的技术？阅读全文

posted @ 2021-06-27 10:35 ralgo 阅读(132) 评论(0) 推荐(0)

2021年6月24日

Spark（一）为什么Spark要比Hadoop MapReduce快？

摘要： MapReduce是一种框架，所谓框架，也即是一个“条条框框”。那么MapReduce的“条条框框”如下： 1、每启动一个任务，就会启动一个JVM，JVM启动是非常耗时的操作，因为一个JVM需要加载很多数据比如很多jar，很多类等等。 2、中间结果要基于磁盘来排序，因为reduce只能读以key排好阅读全文

posted @ 2021-06-24 14:28 ralgo 阅读(659) 评论(0) 推荐(0)

2021年6月19日

MapReduce（十）Shuffle和Sort

摘要：来源：Hadoop权威指南 MapReduce确保每一个reducer的输入都是依照key排序的。系统执行排序然后传输map的输出给reducer的过程被称为shuffle。本文中，我们将讲解shuffle是如何工作的，这些内容对于你优化MapReduce会有所帮助。 Map端当map函数开始输出阅读全文

posted @ 2021-06-19 15:16 ralgo 阅读(412) 评论(0) 推荐(0)

2021年6月18日

MapReduce（九）Speculative Execution

摘要：原文链接： https://data-flair.training/blogs/speculative-execution-in-hadoop-mapreduce/ 1、什么是Speculative Execution？在Haddoop中，MapReduce将一个job细分成多个tasks让后并行阅读全文

posted @ 2021-06-18 16:47 ralgo 阅读(507) 评论(0) 推荐(0)

2021年6月17日

MapReduce（八）Hadoop中的数据本地性

摘要：原文链接： https://data-flair.training/blogs/data-locality-in-hadoop-mapreduce/ 1、什么是数据本地性数据本地性（Data locality）是指将计算移动到数据所在的节点，而不是移动数据移动到计算所在的节点。在Hadoop中，一阅读全文

posted @ 2021-06-17 20:44 ralgo 阅读(661) 评论(0) 推荐(0)

MapReduce（七）InputSplit和HDFS block的关系

摘要： InputSplit是block和mapper之间的代理，也即是为mapper提供了一个数据视图。我们以HDFS的block的大小为128MB举例，当一行日志为130MB（包括行分隔符），这一行数据会被分在两个block中，如果mapper直接读block的话，会读到一个被截断的行日志。这是为什么阅读全文

posted @ 2021-06-17 16:03 ralgo 阅读(361) 评论(0) 推荐(0)

2021年6月11日

Spark和Java API（四）分区

摘要： RDD的分区是什么？ RDD，顾名思义它是分布式的，那么它是怎么实现分布式呢？答案就是分区，也即是一个RDD会将计算逻辑分布在整个集群中。这很像kafka中的topic的分区，通过水平扩展的方式提供系统的吞吐量。那么分区是如何分布在整个集群中呢？我们拿hdfs举例，假设hdfs上有一个文件A，大小阅读全文

posted @ 2021-06-11 13:55 ralgo 阅读(110) 评论(0) 推荐(0)

2021年6月10日

Spark和Java API（三）Join

摘要：本文介紹如何基于Spark和Java来实现一个Join算子的应用示例。创建工程创建一个Maven工程，pom.xml文件如下： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001 阅读全文

posted @ 2021-06-10 20:15 ralgo 阅读(200) 评论(0) 推荐(0)

Spark和Java API（二）Word Count

摘要：本文介紹如何基于Spark和Java来实现一个单词计数（Word Count）的程序。创建工程创建一个Maven工程，pom.xml文件如下： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3. 阅读全文

posted @ 2021-06-10 14:42 ralgo 阅读(178) 评论(0) 推荐(0)

Spark和Java API（一）local模式

摘要： spark的local模式 Local模式就是运行在一台计算机上的模式，Local 模式是最简单的一种Spark运行方式，它采用单节点多线程(CPU)方式运行，通常就是用于在本机学习或者测试使用的。它可以通过以下的方式设置Master： local：所有的计算都运行在一个线程中，没有任何的并行计算阅读全文

posted @ 2021-06-10 12:08 ralgo 阅读(357) 评论(0) 推荐(0)

公告