摘要: 官方的yum源在国内访问效果不佳。 需要改为国内比较好的阿里云或者网易的yum源 修改方式: 然后重建缓存: 阅读全文
posted @ 2017-03-09 23:45 少年努力吧 阅读(1457) 评论(0) 推荐(0)
摘要: Spark的Shuffle过程介绍 Shuffle Writer Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。 Spark中需要Shuffle输出的Map任 阅读全文
posted @ 2017-03-09 23:40 少年努力吧 阅读(14973) 评论(2) 推荐(1)
摘要: Spark的Shuffle过程介绍 Shuffle Writer Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。 Spark中需要Shuffle输出的Map任 阅读全文
posted @ 2017-03-09 23:39 少年努力吧 阅读(1026) 评论(0) 推荐(0)
摘要: 腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较。 腾讯分布式数据仓库(Tencent distrib 阅读全文
posted @ 2017-03-09 23:38 少年努力吧 阅读(767) 评论(0) 推荐(0)
摘要: Linux系统开机启动时的工作原理也是深入了解Linux系统核心工作原理的一个很好的途径。 启动第一步--加载BIOS 当你打开计算机电源,计算机会首先加载BIOS信息,BIOS信息是如此的重要,以至于计算机必须在最开始就找到它。这是因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、 阅读全文
posted @ 2017-03-09 23:35 少年努力吧 阅读(612) 评论(0) 推荐(0)
摘要: 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作 阅读全文
posted @ 2017-03-09 23:34 少年努力吧 阅读(4965) 评论(0) 推荐(0)
摘要: 思路简介,大概意思是说,排列图书时,如果在每本书之间留一定的空隙,那么在进行插入时就有可能会少移动一些书,说白了就是在插入排序的基础上,给书与书之间留一定的空隙,这个空隙越大,需要移动的书就越少,这是它的思路,用空间换时间 看红线标的那句话知道,这个空隙留多大,你自己定 图书馆排序的关键是分配空间, 阅读全文
posted @ 2017-03-09 21:58 少年努力吧 阅读(1029) 评论(0) 推荐(0)
摘要: Cycle sort的思想与计数排序太像了,理解了基数排序再看这个会有很大的帮助, 圈排序与计数排序的区别在于圈排序只给那些需要计数的数字计数,先看完文章吧,看完再回来理解这一句话 所谓的圈的定义,我只能想到用例子来说明,实在不好描述 待排数组[ 6 2 4 1 5 9 ] 排完序后[ 1 2 4 阅读全文
posted @ 2017-03-09 21:57 少年努力吧 阅读(308) 评论(0) 推荐(0)
摘要: Strand sort是思路是这样的,它首先需要一个空的数组用来存放最终的输出结果,给它取个名字叫"有序数组" 然后每次遍历待排数组,得到一个"子有序数组",然后将"子有序数组"与"有序数组"合并排序 重复上述操作直到待排数组为空结束 看例子吧 待排数组[ 6 2 4 1 5 9 ] 第一趟遍历得到 阅读全文
posted @ 2017-03-09 21:57 少年努力吧 阅读(153) 评论(0) 推荐(0)
摘要: FlashSort依然类似桶排,主要改进了对要使用的桶的预测,或者说,减少了无用桶的数量从而节省了空间,例如 待排数字[ 6 2 4 1 5 9 100 ]桶排需要100个桶,而flash sort则由于可以预测桶则只需要7个桶 即待排数组长度个桶,如何预测将要使用的桶有这么一个公式 该排序有前置条 阅读全文
posted @ 2017-03-09 21:56 少年努力吧 阅读(221) 评论(0) 推荐(0)