2018 年 7月随笔档案 - waker_wang

spark和MR比较

摘要：MapReduce: 分布式的计算框架缺点：执行速度慢 IO瓶颈 ==> 磁盘IO 网络IO shuffle机制：数据需要输出到磁盘，而且每次shuffle都需要进行排序操作框架的机制：只有Map和Reduce两个算子，对于比较复杂的任务，需要构建多个job来执行当存在job依赖的时候，jo 阅读全文

posted @ 2018-07-30 15:21 waker_wang 阅读(1866) 评论(0) 推荐(0)

hive调优

摘要：1、表和sql的优化 -》大表拆分成小表、分区表、外部表、临时表都是属于优化的一块 -》分区表：检索更快速 -》外部表：数据安全性 -》临时表&拆分子表：简化复杂的SQL以及需求 2、SQL可以从join和fliter两方面深入 3、MR优化 -》map和reduce的个数 -》一个分片就是一个块，阅读全文

posted @ 2018-07-28 15:13 waker_wang 阅读(302) 评论(0) 推荐(0)

hive的常用HQL语句

摘要：1、过滤条件 where 、limit、 distinct、 between and 、 null、 is not nullselect * from emp where sal > 3000;select * from emp limit 1; select distinct deptno fro 阅读全文

posted @ 2018-07-27 15:49 waker_wang 阅读(432) 评论(0) 推荐(0)

hive数据的导入导出方式

摘要：导入方式 1、load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下应用场景：大部分的使用，文件几乎都是默认现在本地的 2、load方式，HDFS load data inpath 'hdfs_pa 阅读全文

posted @ 2018-07-27 15:35 waker_wang 阅读(530) 评论(0) 推荐(0)

hive新手学习随笔

摘要：一、回顾 1、hive基于Hadoop的（存储HDFS，计算MR） 2、sql on hadoop概念 -》简化开发的操作 -》提升业务的效率 3、描述表的三种方式 desc tb_name; desc extended tb_name; desc formatted tb_name; 4、hive 阅读全文

posted @ 2018-07-25 13:50 waker_wang 阅读(341) 评论(0) 推荐(0)

07 2018 档案

公告