王家林的第三讲Hadoop图文训练课程：证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程

此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲：证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。

具体的PDF版本教程请猛击这里。

王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录

王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战

王家林把自己几年来在Hadoop上的研究和实践总结出来，并通过动手实践的方式不断深入云就算实战技术，让人人皆可学习，并从中受益。

此教程来自于王家林多年的云计算实战研究和实践心得，全部免费教材为：云计算分布式大数据Hadoop实战高手之路（共3本书）：

1，王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作，进入云计算大数据的美好世界。

2，王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

3，王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅，从此一览众山小。

这些教程会按照实践的推移每天逐步发布，大家要多多支持喔！

更多Hadoop交流可以联系家林：

新浪微博:http://weibo.com/ilovepains

QQ：1740415547

QQ群：312494188

Weixin：wangjialinandroid

官方博客：http://www.cnblogs.com/guoshiandroid/

问题：我们怎么知道Hadoop工作是正确可靠的？

具体的实验：在hadoop的hdfs中的根目录下创建“input”目录，把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中，然后运行hadoop自带的wordcount工具把结果输出到hdfs根目录下的output目录中，最后要验证我们的hadoop对单词个数统计的正确性。具体的操作如下：

Step 1: 在hadoop的hdfs中的根目录下创建“input”目录:

此时查看HDFS的Web控制台，出现了我们创建的“input”目录：

Step 2：把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中：

此时查看HDFS的Web控制台中的“input”目录，会发现我们成功的把Ubuntu本地的文件拷贝到了hdfs的/input/目录下：

Step 3：运行hadoop自带的wordcount工具把结果输出到hdfs根目录下的output目录并查看运行结果:

此时我们打开hdfs的Web控制台，发现出现了我们的运行结果存放文件夹“output”

打开output目录，运行结果数据存放在“part-r-00000”文件中：

打开“part-r-00000”文件中，可以看到我们的单词数统计结果如下：

Step 4：检查运行结果的正确性。

这里所说的正确性就是看Hadoop对我们多个文件中出现的单词个数的统计工作是否正确，例如我们打开bin目录下的“start-dfs.sh”文件，会发现“required”这个单词，如下所示：

此时我们使用Ubuntu自带grep工具查看一下所有目标文件中包含“required”这个单词的情况：

使用“wc”统计一下“required”这个单词出现的次数：

此时Ubuntu告诉我们bin目录下所有以.sh为结尾的文件中共有“required”这个单词的个数是14,下面我们去hdfs中查看Hadoop统计出结果：

可以看到hadoop通过MapReduce的机制统计出的结果也是14个。

至此，表明我们的Hadoop对单词的个数统计完全正确。

此时进入我们的JobTracker的Web控制台，查看我们的MapReduce任务的运行情况：

可以看到我们进行了14次Map和1次Reduce。

点击任务，可以看到运行的详细信息：

至此，我们彻底完成了实验。

posted @ 2013-06-12 18:10 王家林的Hadoop之旅 Views(1758) Comments(2) Edit 收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

王家林的Hadoop之旅

王家林的 第三讲Hadoop图文训练课程：证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程

公告

王家林的第三讲Hadoop图文训练课程：证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程