摘要: 1、命令行操作(1)打印查询头,需要显示设置:set hive.cli.print.header=true;(2)加"--",其后的都被认为是注释,但 CLI 不解析注释。带有注释的文件只能通过这种方式执行:hive -f script_name(3)-e后跟带引号的hive指令或者查询,-S去掉多... 阅读全文
posted @ 2014-11-28 18:05 liutoutou 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 以下内容转自http://www.cnblogs.com/liuyitian/p/4077624.html /** * 冒泡排序:每次只能确定一位最大的,放置数组末尾 ,下次忽略已经确定的最大值继续比较 * 优点:稳定 * 缺点:效率底下(重复相邻数据比较,且每次比较都会进行... 阅读全文
posted @ 2014-11-07 10:20 liutoutou 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/leoleocmm/article/details/86020811. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,... 阅读全文
posted @ 2014-11-04 16:02 liutoutou 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 一,网络编程中两个主要的问题一个是如何准确的定位网络上一台或多台主机,另一个就是找到主机后如何可靠高效的进行数据传输。在TCP/IP协议中IP层主要负责网络主机的定位,数据传输的路由,由IP地址可以唯一地确定Internet上的一台主机。而TCP层则提供面向应用的可靠(tcp)的或非可靠(UDP)的... 阅读全文
posted @ 2014-10-31 10:23 liutoutou 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 1) union(otherRDD)RDD-->UnionRDD2) groupByKey(numPartitions)RDD-->ShuffledRDD-->MapPartitionsRDDgroupByKey() 只需要将 Key 相同的 records 聚合在一起,一个简单的 shuffle ... 阅读全文
posted @ 2014-10-30 18:34 liutoutou 阅读(1096) 评论(0) 推荐(0) 编辑
摘要: 输入格式: A 1 B,C,D B 1 C,Dmap: B A 1/3 C A 1/3 D A 1/3 A |B,C,D C B 1/2 D B 1/2 B |C,Dreduce: B (1-0.85)+0.... 阅读全文
posted @ 2014-10-29 15:55 liutoutou 阅读(640) 评论(0) 推荐(0) 编辑
摘要: import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.ap... 阅读全文
posted @ 2014-10-29 14:59 liutoutou 阅读(863) 评论(0) 推荐(0) 编辑
摘要: 以下内容参考http://www.cnblogs.com/luogankun/p/3912956.html一、集群启动过程--启动Master二、集群启动过程--启动WorkerWorker运行时,需要注册到指定的master urlWorker启动之后主要做了两件事情: 1)将自己注册到Mast... 阅读全文
posted @ 2014-10-28 15:31 liutoutou 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce... 阅读全文
posted @ 2014-10-13 11:20 liutoutou 阅读(311) 评论(0) 推荐(0) 编辑
摘要: Java的并发编程是依赖虚拟机内存模型的三个特性实现的:(1).原子性(Atomicity):原子性是指不可再分的最小操作指令,即单条机器指令,原子性操作任意时刻只能有一个线程,因此是线程安全的。Java内存模型中通过read、load、assign、use、store和write这6个操作保证变量... 阅读全文
posted @ 2014-10-09 14:51 liutoutou 阅读(153) 评论(0) 推荐(0) 编辑