上一页 1 2 3 4 5 6 ··· 8 下一页
摘要: 原文链接:https://0x0fff.com/spark-misconceptions/ 这篇文章我主要将关于Spark的三大误解: 1、Spark是一种内存固化的技术 2、Spark比Hadoop快10-100倍 3、在数据分析市场,Spark创新地引进新的方法 Spark是一种内存固化的技术? 阅读全文
posted @ 2021-06-27 10:35 ralgo 阅读(132) 评论(0) 推荐(0)
摘要: MapReduce是一种框架,所谓框架,也即是一个“条条框框”。那么MapReduce的“条条框框”如下: 1、每启动一个任务,就会启动一个JVM,JVM启动是非常耗时的操作,因为一个JVM需要加载很多数据比如很多jar,很多类等等。 2、中间结果要基于磁盘来排序,因为reduce只能读以key排好 阅读全文
posted @ 2021-06-24 14:28 ralgo 阅读(659) 评论(0) 推荐(0)
摘要: 来源:Hadoop权威指南 MapReduce确保每一个reducer的输入都是依照key排序的。系统执行排序然后传输map的输出给reducer的过程被称为shuffle。本文中,我们将讲解shuffle是如何工作的,这些内容对于你优化MapReduce会有所帮助。 Map端 当map函数开始输出 阅读全文
posted @ 2021-06-19 15:16 ralgo 阅读(412) 评论(0) 推荐(0)
摘要: 原文链接: https://data-flair.training/blogs/speculative-execution-in-hadoop-mapreduce/ 1、什么是Speculative Execution? 在Haddoop中,MapReduce将一个job细分成多个tasks让后并行 阅读全文
posted @ 2021-06-18 16:47 ralgo 阅读(507) 评论(0) 推荐(0)
摘要: 原文链接: https://data-flair.training/blogs/data-locality-in-hadoop-mapreduce/ 1、什么是数据本地性 数据本地性(Data locality)是指将计算移动到数据所在的节点,而不是移动数据移动到计算所在的节点。在Hadoop中,一 阅读全文
posted @ 2021-06-17 20:44 ralgo 阅读(661) 评论(0) 推荐(0)
摘要: InputSplit是block和mapper之间的代理,也即是为mapper提供了一个数据视图。 我们以HDFS的block的大小为128MB举例,当一行日志为130MB(包括行分隔符),这一行数据会被分在两个block中,如果mapper直接读block的话,会读到一个被截断的行日志。这是为什么 阅读全文
posted @ 2021-06-17 16:03 ralgo 阅读(361) 评论(0) 推荐(0)
摘要: RDD的分区是什么? RDD,顾名思义它是分布式的,那么它是怎么实现分布式呢?答案就是分区,也即是一个RDD会将计算逻辑分布在整个集群中。这很像kafka中的topic的分区,通过水平扩展的方式提供系统的吞吐量。 那么分区是如何分布在整个集群中呢?我们拿hdfs举例,假设hdfs上有一个文件A,大小 阅读全文
posted @ 2021-06-11 13:55 ralgo 阅读(110) 评论(0) 推荐(0)
摘要: 本文介紹如何基于Spark和Java来实现一个Join算子的应用示例。 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001 阅读全文
posted @ 2021-06-10 20:15 ralgo 阅读(200) 评论(0) 推荐(0)
摘要: 本文介紹如何基于Spark和Java来实现一个单词计数(Word Count)的程序。 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3. 阅读全文
posted @ 2021-06-10 14:42 ralgo 阅读(178) 评论(0) 推荐(0)
摘要: spark的local模式 Local模式就是运行在一台计算机上的模式,Local 模式是最简单的一种Spark运行方式,它采用单节点多线程(CPU)方式运行, 通常就是用于在本机学习或者测试使用的。它可以通过以下的方式设置Master: local:所有的计算都运行在一个线程中,没有任何的并行计算 阅读全文
posted @ 2021-06-10 12:08 ralgo 阅读(357) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 8 下一页