随笔档案「2012年4月」 - liangzh123

MapReduc操作HBase

摘要：本文来自：http://qa.taobao.com/?p=13914实例分析本文通过实例分析演示了使用MapReduce分析HBase的数据，需要注意的这只是一种常规的方式（分析表中的数据存到另外的表中），实际上不局限于此，不过其他方式跟此类似。blog例子来进行示例分析，业务需求是这样：找到具有相同兴趣的人，我们简单定义为如果author之间article的tag相同，则认为两者有相同兴趣，将分析结果保存到HBase。除了上面介绍的blog表外，我们新增一张表tag_friend，RowKey为tag，Value为authors,大概就下面这样。blog示例：我们省略了一些跟分析无关的Col 阅读全文

posted @ 2012-04-19 19:52 liangzh123 阅读(3189) 评论(0) 推荐(0)

Jave操作HBase

摘要：import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.hbase.client.Dele 阅读全文

posted @ 2012-04-19 19:51 liangzh123 阅读(774) 评论(0) 推荐(0)

HBase shell 简单使用

摘要：引言HBase提供了丰富的访问接口。 • HBase Shell • Java clietn API • Jython、Groovy DSL、Scala • REST • Thrift（Ruby、Python、Perl、C++…） • MapReduce • Hive/Pig其中HBase Shell是常用的便捷方式首先你需要一个HBase的环境，如果需要自己搭建可以参考http://hbase.apache.org/book/quickstart.html 和http://hbase.apache.org/book/notsoquick.html。如果你在windows环境下配... 阅读全文

posted @ 2012-04-06 15:45 liangzh123 阅读(6225) 评论(2) 推荐(1)

HBase简介

摘要：HBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zook 阅读全文

posted @ 2012-04-06 14:36 liangzh123 阅读(364) 评论(0) 推荐(0)

linux安装HBase

摘要：(1) 编辑$HBASE_HOME/conf/hbase-env.sh文件，设置JAVA_HOME和HBASE_CLASSPATH变量 export JAVA_HOME=/usr/lib/jvm/java1.6.0_30 (自己的JAVA_HOME主目录) export HBASE_CLASSPAT... 阅读全文

posted @ 2012-04-06 14:25 liangzh123 阅读(2086) 评论(0) 推荐(1)

运行Hadoop遇到的问题

摘要：1, 伪分布式模式不能用root?? 以root执行start-all.sh出现 localhost: Unrecognized option: -jvm localhost: Could not create the Java virtual machine. 下面是别人的解决方案：（可以修改的地方有两个）第一个(次要的)：$HADOOP_HOME/conf/hadoop-env.sh 修改参数： export HADOOP_HEAPSIZE=256 #默认值为1000M，为Java虚拟机占用的内存的大小第二个(主要的)：查看$HADOOP_HOME/bin/hadoop 源码： i.. 阅读全文

posted @ 2012-04-06 14:11 liangzh123 阅读(4751) 评论(0) 推荐(0)

linux安装Hadoop

摘要：安装Hadoop:1，下载hadoop-0.20.203.0.tar.gz 用命令tar -zxf hadoop-0.20.203.0.tar.gz 此时会出现hadoop-0.20.203.0文件夹2，vi /etc/profile或修改conf/hadoop-env.sh 在里面添加如下代码： #This is Hadoop #HADOOP_INSTALL is an environment variable that points to the Hadoop installation directory export HADOOP_HOME=/usr/hadoop-0.20.... 阅读全文

posted @ 2012-04-06 13:46 liangzh123 阅读(431) 评论(0) 推荐(0)

linux安装jdk和eclipse

摘要：安装jdk:1,下载jdk-6u30-linux-i586.bin 然后以root的权限使此.bin文件有执行权限（chmod 777 jdk-6u30-linux-i586.bin）　# ./jdk-6u30-linux-i586.bin unpacking.. . Press Enter to continue..... . Done 此时会出现jdk1.6.0_30文件夹 (我把它cp jdk1.6.0_30 /usr)2,vi /etc/profile 在里面添加如下代码：（可以让所有用户使用） # This is Java export JAVA_HOME=/usr/jdk1... 阅读全文

posted @ 2012-04-06 11:30 liangzh123 阅读(301) 评论(0) 推荐(0)

04 2012 档案