会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ralgo
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
8
下一页
2021年6月27日
Spark(二)关于对Spark的误解
摘要: 原文链接:https://0x0fff.com/spark-misconceptions/ 这篇文章我主要将关于Spark的三大误解: 1、Spark是一种内存固化的技术 2、Spark比Hadoop快10-100倍 3、在数据分析市场,Spark创新地引进新的方法 Spark是一种内存固化的技术?
阅读全文
posted @ 2021-06-27 10:35 ralgo
阅读(132)
评论(0)
推荐(0)
2021年6月24日
Spark(一)为什么Spark要比Hadoop MapReduce快?
摘要: MapReduce是一种框架,所谓框架,也即是一个“条条框框”。那么MapReduce的“条条框框”如下: 1、每启动一个任务,就会启动一个JVM,JVM启动是非常耗时的操作,因为一个JVM需要加载很多数据比如很多jar,很多类等等。 2、中间结果要基于磁盘来排序,因为reduce只能读以key排好
阅读全文
posted @ 2021-06-24 14:28 ralgo
阅读(659)
评论(0)
推荐(0)
2021年6月19日
MapReduce(十)Shuffle和Sort
摘要: 来源:Hadoop权威指南 MapReduce确保每一个reducer的输入都是依照key排序的。系统执行排序然后传输map的输出给reducer的过程被称为shuffle。本文中,我们将讲解shuffle是如何工作的,这些内容对于你优化MapReduce会有所帮助。 Map端 当map函数开始输出
阅读全文
posted @ 2021-06-19 15:16 ralgo
阅读(412)
评论(0)
推荐(0)
2021年6月18日
MapReduce(九)Speculative Execution
摘要: 原文链接: https://data-flair.training/blogs/speculative-execution-in-hadoop-mapreduce/ 1、什么是Speculative Execution? 在Haddoop中,MapReduce将一个job细分成多个tasks让后并行
阅读全文
posted @ 2021-06-18 16:47 ralgo
阅读(507)
评论(0)
推荐(0)
2021年6月17日
MapReduce(八)Hadoop中的数据本地性
摘要: 原文链接: https://data-flair.training/blogs/data-locality-in-hadoop-mapreduce/ 1、什么是数据本地性 数据本地性(Data locality)是指将计算移动到数据所在的节点,而不是移动数据移动到计算所在的节点。在Hadoop中,一
阅读全文
posted @ 2021-06-17 20:44 ralgo
阅读(661)
评论(0)
推荐(0)
MapReduce(七)InputSplit和HDFS block的关系
摘要: InputSplit是block和mapper之间的代理,也即是为mapper提供了一个数据视图。 我们以HDFS的block的大小为128MB举例,当一行日志为130MB(包括行分隔符),这一行数据会被分在两个block中,如果mapper直接读block的话,会读到一个被截断的行日志。这是为什么
阅读全文
posted @ 2021-06-17 16:03 ralgo
阅读(361)
评论(0)
推荐(0)
2021年6月11日
Spark和Java API(四)分区
摘要: RDD的分区是什么? RDD,顾名思义它是分布式的,那么它是怎么实现分布式呢?答案就是分区,也即是一个RDD会将计算逻辑分布在整个集群中。这很像kafka中的topic的分区,通过水平扩展的方式提供系统的吞吐量。 那么分区是如何分布在整个集群中呢?我们拿hdfs举例,假设hdfs上有一个文件A,大小
阅读全文
posted @ 2021-06-11 13:55 ralgo
阅读(110)
评论(0)
推荐(0)
2021年6月10日
Spark和Java API(三)Join
摘要: 本文介紹如何基于Spark和Java来实现一个Join算子的应用示例。 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001
阅读全文
posted @ 2021-06-10 20:15 ralgo
阅读(200)
评论(0)
推荐(0)
Spark和Java API(二)Word Count
摘要: 本文介紹如何基于Spark和Java来实现一个单词计数(Word Count)的程序。 创建工程 创建一个Maven工程,pom.xml文件如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.
阅读全文
posted @ 2021-06-10 14:42 ralgo
阅读(178)
评论(0)
推荐(0)
Spark和Java API(一)local模式
摘要: spark的local模式 Local模式就是运行在一台计算机上的模式,Local 模式是最简单的一种Spark运行方式,它采用单节点多线程(CPU)方式运行, 通常就是用于在本机学习或者测试使用的。它可以通过以下的方式设置Master: local:所有的计算都运行在一个线程中,没有任何的并行计算
阅读全文
posted @ 2021-06-10 12:08 ralgo
阅读(357)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
8
下一页
公告