摘要: 我的坏境是在虚拟机linux操作系统中,启动start-all.sh后1、执行jps,如下2、执行hadoop fs -mkdir input 创建成功 执行hadoop fs -ls 可以看到input文件夹3、把本地文件拷贝到前面创建的input文件夹中,执行命令 hadoop fs -put /home/hadoop/file1 input 时报错,但是文件有上传过去。见下图4、网上说的 stop-all.sh 后然后hadoop namenode -format ,然后再重启 start-all.sh可以解决,我试了下不行。 最后发现是hadoop的临时文件夹 hadoop.tmp.d 阅读全文
posted @ 2013-08-06 18:07 DW祥哥 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 本人在测试的时候发现需要eclipse的版本为Version: 3.3.2和hadoop 0.20.2测试通过,其他eclipse版本测试通不过。原文:http://blog.csdn.net/furiously/article/details/6430525此文章的前提是:知道hadoop是什么,知道什么是分布式系统,了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分: 1、hadoop 在 redhat linux下的安装过程 网上有很多讲授在windows下通过Cygwin安装hadoop的,笔者认为h.. 阅读全文
posted @ 2012-12-18 15:53 DW祥哥 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜总结转载:http://www.alidata.org/archives/2109转在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料 阅读全文
posted @ 2012-12-18 15:41 DW祥哥 阅读(193) 评论(0) 推荐(0) 编辑
摘要: Map/Reduce hadoop 细节原文:http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html分布式计算(Map/Reduce)分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数。 从计算的角度上看,Map/Reduce框架接受各种格式的键值对文件作为输入 阅读全文
posted @ 2012-12-18 15:39 DW祥哥 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 点击虚拟机菜单中的【VM】选项选择 setting...进入界面接下去选择添加的硬盘大小点击next最后点击finish,完成添加。注意:必须重启linux系统,才能看到添加的硬盘,如果是第二颗硬盘就为sdb重启系统后运行命令:fdisk -l 可以看到类似以下的界面需要进行磁盘分区、格式化和挂载才能使用 阅读全文
posted @ 2012-12-18 15:32 DW祥哥 阅读(518) 评论(0) 推荐(0) 编辑