少年努力吧 - 博客园

2017年3月9日

摘要：官方的yum源在国内访问效果不佳。需要改为国内比较好的阿里云或者网易的yum源修改方式：然后重建缓存：阅读全文

posted @ 2017-03-09 23:45 少年努力吧阅读(1458) 评论(0) 推荐(0)

Spark 的 Shuffle过程介绍`

摘要： Spark的Shuffle过程介绍 Shuffle Writer Spark丰富了任务类型，有些任务之间数据流转不需要通过Shuffle，但是有些任务之间还是需要通过Shuffle来传递数据，比如wide dependency的group by key。 Spark中需要Shuffle输出的Map任阅读全文

posted @ 2017-03-09 23:40 少年努力吧阅读(15052) 评论(2) 推荐(1)

Spark的Shuffle过程介绍

posted @ 2017-03-09 23:39 少年努力吧阅读(1029) 评论(0) 推荐(0)

腾讯大数据之TDW计算引擎解析——Shuffle

摘要：腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分：MapReduce和Spark，两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析，并对两个计算引擎的Shuffle过程进行比较。腾讯分布式数据仓库（Tencent distrib 阅读全文

posted @ 2017-03-09 23:38 少年努力吧阅读(769) 评论(0) 推荐(0)

Linux系统开机启动时的工作原理

摘要： Linux系统开机启动时的工作原理也是深入了解Linux系统核心工作原理的一个很好的途径。启动第一步--加载BIOS 当你打开计算机电源，计算机会首先加载BIOS信息，BIOS信息是如此的重要，以至于计算机必须在最开始就找到它。这是因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、阅读全文

posted @ 2017-03-09 23:35 少年努力吧阅读(615) 评论(0) 推荐(0)

Spark性能优化指南——高级篇

摘要：前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作阅读全文

posted @ 2017-03-09 23:34 少年努力吧阅读(4966) 评论(0) 推荐(0)

图书馆排序(Library Sort)

摘要：思路简介,大概意思是说,排列图书时,如果在每本书之间留一定的空隙,那么在进行插入时就有可能会少移动一些书,说白了就是在插入排序的基础上,给书与书之间留一定的空隙,这个空隙越大,需要移动的书就越少,这是它的思路,用空间换时间看红线标的那句话知道,这个空隙留多大,你自己定图书馆排序的关键是分配空间, 阅读全文

posted @ 2017-03-09 21:58 少年努力吧阅读(1032) 评论(0) 推荐(0)

Strand Sort

摘要： Strand sort是思路是这样的,它首先需要一个空的数组用来存放最终的输出结果,给它取个名字叫"有序数组" 然后每次遍历待排数组,得到一个"子有序数组",然后将"子有序数组"与"有序数组"合并排序重复上述操作直到待排数组为空结束看例子吧待排数组[ 6 2 4 1 5 9 ] 第一趟遍历得到阅读全文

posted @ 2017-03-09 21:57 少年努力吧阅读(155) 评论(0) 推荐(0)

Cycle Sort

摘要： Cycle sort的思想与计数排序太像了,理解了基数排序再看这个会有很大的帮助, 圈排序与计数排序的区别在于圈排序只给那些需要计数的数字计数,先看完文章吧,看完再回来理解这一句话所谓的圈的定义,我只能想到用例子来说明,实在不好描述待排数组[ 6 2 4 1 5 9 ] 排完序后[ 1 2 4 阅读全文

posted @ 2017-03-09 21:57 少年努力吧阅读(309) 评论(0) 推荐(0)

Flash Sort

摘要： FlashSort依然类似桶排,主要改进了对要使用的桶的预测,或者说,减少了无用桶的数量从而节省了空间,例如待排数字[ 6 2 4 1 5 9 100 ]桶排需要100个桶,而flash sort则由于可以预测桶则只需要7个桶即待排数组长度个桶,如何预测将要使用的桶有这么一个公式该排序有前置条阅读全文

posted @ 2017-03-09 21:56 少年努力吧阅读(223) 评论(0) 推荐(0)

公告