随笔分类 - Hadoop
Hadoop分布式计算,对hadoop的思想的理解,以及在集群上面进行编程
摘要:准备工作:下载Thrift compiler for Windows版本的EXE文件(thrift-0.7.0.exe)下载SVN源码地址:http://svn.apache.org/repos/asf/thrift/attic/trunk/lib/csharp/(使用svn来下载)1.将hbase-0.94.4\src\main\resources\org\apache\hadoop\hbase\thrift2\hbase.thrift 到thrift-0.7.0.exe 相同目录下进入命令行,到 thrift-0.7.0.exe 目录下执行thrift-0.7.0.exe-gen csha
阅读全文
摘要:当在Map阶段输入数据逻辑上很大(二十G)(存在hdfs上实际都是以64M的块存储),而你的集群数量不是很大(只有十台),这样造成会有很多的Map(320个),造成map效率不是很高这里可以通过设置ConfigurationConfiguration defaultConf = new Configuration();defaultConf.set("mapred.min.split.size", "134217728"); //默认为64M,这里改为128M来增大map的split的大小将Map数减少为160个hadoop版本:1.0.4
阅读全文
摘要:hadoop的版本区别:1.0.X -current stable version, 1.0 release1.1.X -current beta version, 1.1 release2.X.X -current alpha version0.23.X -simmilar to 2.X.X but missing NN HA.0.22.X -does not include security0.20.203.X -old legacy stable version0.20.X -old legacy version参考官方地址:http://hadoop.apache.org/releas
阅读全文
摘要:最近因为工作上面数据挖掘方面的计算量比较大,所以准备入手hadoop这个开源的分布式计算学习。 主要可能通过运用hadoop集群来增强对数据处理的能力以及速度。 纯为新手学习。
阅读全文

浙公网安备 33010602011771号