spark和MR比较
摘要:MapReduce: 分布式的计算框架 缺点:执行速度慢 IO瓶颈 ==> 磁盘IO 网络IO shuffle机制:数据需要输出到磁盘,而且每次shuffle都需要进行排序操作 框架的机制: 只有Map和Reduce两个算子,对于比较复杂的任务,需要构建多个job来执行 当存在job依赖的时候,jo
阅读全文
hive调优
摘要:1、表和sql的优化 -》大表拆分成小表、分区表、外部表、临时表都是属于优化的一块 -》分区表:检索更快速 -》外部表:数据安全性 -》临时表&拆分子表:简化复杂的SQL以及需求 2、SQL可以从join和fliter两方面深入 3、MR优化 -》map和reduce的个数 -》一个分片就是一个块,
阅读全文
hive的常用HQL语句
摘要:1、过滤条件 where 、limit、 distinct、 between and 、 null、 is not nullselect * from emp where sal > 3000;select * from emp limit 1; select distinct deptno fro
阅读全文
hive数据的导入导出方式
摘要:导入方式 1、load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下 应用场景:大部分的使用,文件几乎都是默认现在本地的 2、load方式,HDFS load data inpath 'hdfs_pa
阅读全文
hive新手学习随笔
摘要:一、回顾 1、hive基于Hadoop的(存储HDFS,计算MR) 2、sql on hadoop概念 -》简化开发的操作 -》提升业务的效率 3、描述表的三种方式 desc tb_name; desc extended tb_name; desc formatted tb_name; 4、hive
阅读全文