Hadoop - 随笔分类 - 風吹云动

Hbase学习：使用C#通过Thrift来对Hbase进行访问

摘要：准备工作：下载Thrift compiler for Windows版本的EXE文件(thrift-0.7.0.exe)下载SVN源码地址：http://svn.apache.org/repos/asf/thrift/attic/trunk/lib/csharp/（使用svn来下载）1.将hbase-0.94.4\src\main\resources\org\apache\hadoop\hbase\thrift2\hbase.thrift 到thrift-0.7.0.exe 相同目录下进入命令行，到 thrift-0.7.0.exe 目录下执行thrift-0.7.0.exe-gen csha 阅读全文

posted @ 2013-01-25 14:57 風吹云动阅读(4425) 评论(2) 推荐(1)

hadoop优化问题

摘要：当在Map阶段输入数据逻辑上很大（二十G）（存在hdfs上实际都是以64M的块存储），而你的集群数量不是很大（只有十台），这样造成会有很多的Map（320个），造成map效率不是很高这里可以通过设置ConfigurationConfiguration defaultConf = new Configuration();defaultConf.set("mapred.min.split.size", "134217728"); //默认为64M，这里改为128M来增大map的split的大小将Map数减少为160个hadoop版本：1.0.4 阅读全文

posted @ 2013-01-16 16:56 風吹云动阅读(345) 评论(0) 推荐(0)

Hadoop学习：（二）hadoop的简介

摘要：hadoop的版本区别：1.0.X -current stable version, 1.0 release1.1.X -current beta version, 1.1 release2.X.X -current alpha version0.23.X -simmilar to 2.X.X but missing NN HA.0.22.X -does not include security0.20.203.X -old legacy stable version0.20.X -old legacy version参考官方地址：http://hadoop.apache.org/releas 阅读全文

posted @ 2013-01-13 20:03 風吹云动阅读(418) 评论(0) 推荐(0)

Haddop学习：（一）序

摘要：最近因为工作上面数据挖掘方面的计算量比较大，所以准备入手hadoop这个开源的分布式计算学习。主要可能通过运用hadoop集群来增强对数据处理的能力以及速度。纯为新手学习。阅读全文

posted @ 2013-01-13 15:17 風吹云动阅读(534) 评论(0) 推荐(0)

机器学习之路

道路漫长，需要坚持

随笔分类 - Hadoop

公告