随笔分类 - 【12】Hadoop大数据平台_基础心得
摘要:对于Hadoop集群来说,节点损坏是非常常见的现象。
而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行。
下面就来分析Hadoop平台是如何做到的。
阅读全文
摘要:在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议。
接下来,数据被会被送往一个个Map节点中去,这也无异议。
下面问题来了:数据在被Map节点处理完后,再何去何从呢?
阅读全文
摘要:从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情。
那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易" 地实现分布式运行?
阅读全文
摘要:在计算机领域,排序的重要性不用多说。而排序的算法,效率分析等也一直是研究的热点。
本文将给出使用Hadoop分布式方案进行排序的例子,这能极大提高排序的速度,是需要重点掌握的一个案例。
阅读全文
摘要:去除掉海量文件中的存在着的重复数据,并将结果输出到单个文件中。
比如有文件1中有以下数据......
阅读全文
摘要:计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。
比如,输入两个文件,其一内容如下......
阅读全文
摘要:Hadoop流提供了一个API,允许用户使用任何脚本语言编写Map函数或Reduce函数。
本文对此知识点进行介绍。
阅读全文
摘要:本文讲解Hadoop中的编程及计算模型MapReduce,并将给出在MapReduce模型下编程的基本套路。
阅读全文
摘要:在先前的文章中,已经介绍了如何在Ubuntu Kylin操作系统下搭建Hadoop运行环境,而现在将在之前工作的基础上搭建Eclipse开发环境。
阅读全文
摘要:本文介绍如何在Ubuntu Kylin操作系统上搭建Hadoop平台。
阅读全文
摘要:本文大致介绍下Hadoop的一些背景知识,为后面深入学习打下铺垫。
阅读全文