04 2012 档案

MapReduc操作HBase
摘要:本文来自:http://qa.taobao.com/?p=13914实例分析本文通过实例分析演示了使用MapReduce分析HBase的数据,需要注意的这只是一种常规的方式(分析表中的数据存到另外的表中),实际上不局限于此,不过其他方式跟此类似。blog例子来进行示例分析,业务需求是这样:找到具有相同兴趣的人,我们简单定义为如果author之间article的tag相同,则认为两者有相同兴趣,将分析结果保存到HBase。除了上面介绍的blog表外,我们新增一张表tag_friend,RowKey为tag,Value为authors,大概就下面这样。blog示例:我们省略了一些跟分析无关的Col 阅读全文

posted @ 2012-04-19 19:52 liangzh123 阅读(3189) 评论(0) 推荐(0)

Jave操作HBase
摘要:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.hbase.client.Dele 阅读全文

posted @ 2012-04-19 19:51 liangzh123 阅读(774) 评论(0) 推荐(0)

HBase shell 简单使用
摘要:引言HBase提供了丰富的访问接口。 • HBase Shell • Java clietn API • Jython、Groovy DSL、Scala • REST • Thrift(Ruby、Python、Perl、C++…) • MapReduce • Hive/Pig其中HBase Shell是常用的便捷方式首先你需要一个HBase的环境,如果需要自己搭建可以参考http://hbase.apache.org/book/quickstart.html 和http://hbase.apache.org/book/notsoquick.html。如果你在windows环境下配... 阅读全文

posted @ 2012-04-06 15:45 liangzh123 阅读(6225) 评论(2) 推荐(1)

HBase简介
摘要:HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zook 阅读全文

posted @ 2012-04-06 14:36 liangzh123 阅读(364) 评论(0) 推荐(0)

linux安装HBase
摘要:(1) 编辑$HBASE_HOME/conf/hbase-env.sh文件,设置JAVA_HOME和HBASE_CLASSPATH变量 export JAVA_HOME=/usr/lib/jvm/java1.6.0_30 (自己的JAVA_HOME主目录) export HBASE_CLASSPAT... 阅读全文

posted @ 2012-04-06 14:25 liangzh123 阅读(2086) 评论(0) 推荐(1)

运行Hadoop遇到的问题
摘要:1, 伪分布式模式不能用root?? 以root执行start-all.sh出现 localhost: Unrecognized option: -jvm localhost: Could not create the Java virtual machine. 下面是别人的解决方案:(可以修改的地方有两个) 第一个(次要的):$HADOOP_HOME/conf/hadoop-env.sh 修改参数: export HADOOP_HEAPSIZE=256 #默认值为1000M,为Java虚拟机占用的内存的大小 第二个(主要的):查看$HADOOP_HOME/bin/hadoop 源码: i.. 阅读全文

posted @ 2012-04-06 14:11 liangzh123 阅读(4751) 评论(0) 推荐(0)

linux安装Hadoop
摘要:安装Hadoop:1,下载hadoop-0.20.203.0.tar.gz 用命令tar -zxf hadoop-0.20.203.0.tar.gz 此时会出现hadoop-0.20.203.0文件夹2,vi /etc/profile或修改conf/hadoop-env.sh 在里面添加如下代码: #This is Hadoop #HADOOP_INSTALL is an environment variable that points to the Hadoop installation directory export HADOOP_HOME=/usr/hadoop-0.20.... 阅读全文

posted @ 2012-04-06 13:46 liangzh123 阅读(431) 评论(0) 推荐(0)

linux安装jdk和eclipse
摘要:安装jdk:1,下载jdk-6u30-linux-i586.bin 然后以root的权限使此.bin文件有执行权限(chmod 777 jdk-6u30-linux-i586.bin) # ./jdk-6u30-linux-i586.bin unpacking.. . Press Enter to continue..... . Done 此时会出现jdk1.6.0_30文件夹 (我把它cp jdk1.6.0_30 /usr)2,vi /etc/profile 在里面添加如下代码:(可以让所有用户使用) # This is Java export JAVA_HOME=/usr/jdk1... 阅读全文

posted @ 2012-04-06 11:30 liangzh123 阅读(301) 评论(0) 推荐(0)

导航