08 2015 档案

Hive over HBase和Hive over HDFS性能比较分析
摘要:http://superlxw1234.iteye.com/blog/2008274环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.... 阅读全文

posted @ 2015-08-20 20:56 白乔 阅读(492) 评论(0) 推荐(0)

hive与hbase集成
摘要:http://blog.csdn.net/vah101/article/details/22597341这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表,进行读(select)、写(insert)操作。它甚至可以基于join、union操作对hbase表和hiv... 阅读全文

posted @ 2015-08-20 20:49 白乔 阅读(315) 评论(0) 推荐(0)

基于spark实现表的join操作
摘要:1. 自连接假设存在如下文件:[root@bluejoe0 ~]# cat categories.csv 1,生活用品,02,数码用品,13,手机,24,华为Mate7,3每一行的格式为:类别ID,类别名称,父类ID现在欲输出每个类别的父类别的名称,类似于SQL的自连接,注意到joi... 阅读全文

posted @ 2015-08-05 23:39 白乔 阅读(486) 评论(0) 推荐(0)

关于IO的一些数字
摘要:http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/people/jeff/stanford-295-talk.pdf 阅读全文

posted @ 2015-08-05 22:44 白乔 阅读(170) 评论(0) 推荐(0)

scala的REPL shell的调用
摘要:最近突然对spark的spark-shell发生了兴趣 它是如何启动scala的REPL的,并且在此前写入了常用的环境变量的呢? 通过查看spark的源码,找到了SparkILoop.scalaimport scala.tools.nsc.interpreter.{JPrintWri... 阅读全文

posted @ 2015-08-02 21:51 白乔 阅读(1175) 评论(0) 推荐(0)

导航