| | | | |

2018年8月2日

摘要： Hadoop主要有两个层次，即：加工/计算层(MapReduce)，以及存储层(Hadoop分布式文件系统,即HDFS)。 Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统，HDFS是高度容错以及使用低成本的硬件设计。 HDFS拥有超大型的数据量，并提供更阅读全文

posted @ 2018-08-02 19:22 waker_wang 阅读(162) 评论(0) 推荐(0)

2018年7月30日

spark和MR比较

摘要： MapReduce: 分布式的计算框架缺点：执行速度慢 IO瓶颈 ==> 磁盘IO 网络IO shuffle机制：数据需要输出到磁盘，而且每次shuffle都需要进行排序操作框架的机制：只有Map和Reduce两个算子，对于比较复杂的任务，需要构建多个job来执行当存在job依赖的时候，jo 阅读全文

posted @ 2018-07-30 15:21 waker_wang 阅读(1872) 评论(0) 推荐(0)

2018年7月28日

hive调优

摘要： 1、表和sql的优化 -》大表拆分成小表、分区表、外部表、临时表都是属于优化的一块 -》分区表：检索更快速 -》外部表：数据安全性 -》临时表&拆分子表：简化复杂的SQL以及需求 2、SQL可以从join和fliter两方面深入 3、MR优化 -》map和reduce的个数 -》一个分片就是一个块，阅读全文

posted @ 2018-07-28 15:13 waker_wang 阅读(305) 评论(0) 推荐(0)

2018年7月27日

hive的常用HQL语句

摘要： 1、过滤条件 where 、limit、 distinct、 between and 、 null、 is not nullselect * from emp where sal > 3000;select * from emp limit 1; select distinct deptno fro 阅读全文

posted @ 2018-07-27 15:49 waker_wang 阅读(435) 评论(0) 推荐(0)

hive数据的导入导出方式

摘要：导入方式 1、load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下应用场景：大部分的使用，文件几乎都是默认现在本地的 2、load方式，HDFS load data inpath 'hdfs_pa 阅读全文

posted @ 2018-07-27 15:35 waker_wang 阅读(535) 评论(0) 推荐(0)

2018年7月25日

hive新手学习随笔

摘要：一、回顾 1、hive基于Hadoop的（存储HDFS，计算MR） 2、sql on hadoop概念 -》简化开发的操作 -》提升业务的效率 3、描述表的三种方式 desc tb_name; desc extended tb_name; desc formatted tb_name; 4、hive 阅读全文

posted @ 2018-07-25 13:50 waker_wang 阅读(349) 评论(0) 推荐(0)

2018年8月2日

2018年7月30日

2018年7月28日

2018年7月27日

2018年7月25日

公告