2015 年 8月随笔档案 - 白乔

Hive over HBase和Hive over HDFS性能比较分析

摘要：http://superlxw1234.iteye.com/blog/2008274环境配置：hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.... 阅读全文

posted @ 2015-08-20 20:56 白乔阅读(492) 评论(0) 推荐(0)

hive与hbase集成

摘要：http://blog.csdn.net/vah101/article/details/22597341这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表，进行读（select）、写（insert）操作。它甚至可以基于join、union操作对hbase表和hiv... 阅读全文

posted @ 2015-08-20 20:49 白乔阅读(315) 评论(0) 推荐(0)

基于spark实现表的join操作

摘要：1. 自连接假设存在如下文件：[root@bluejoe0 ~]# cat categories.csv 1,生活用品,02,数码用品,13,手机,24,华为Mate7,3每一行的格式为：类别ID，类别名称，父类ID现在欲输出每个类别的父类别的名称，类似于SQL的自连接，注意到joi... 阅读全文

posted @ 2015-08-05 23:39 白乔阅读(486) 评论(0) 推荐(0)

关于IO的一些数字

摘要：http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/people/jeff/stanford-295-talk.pdf 阅读全文

posted @ 2015-08-05 22:44 白乔阅读(170) 评论(0) 推荐(0)

scala的REPL shell的调用

摘要：最近突然对spark的spark-shell发生了兴趣它是如何启动scala的REPL的，并且在此前写入了常用的环境变量的呢？通过查看spark的源码，找到了SparkILoop.scalaimport scala.tools.nsc.interpreter.{JPrintWri... 阅读全文

posted @ 2015-08-02 21:51 白乔阅读(1175) 评论(0) 推荐(0)

08 2015 档案

Hive over HBase和Hive over HDFS性能比较分析

hive与hbase集成

基于spark实现表的join操作

关于IO的一些数字

scala的REPL shell的调用

导航

公告