摘要:
一、zookeeper集群搭建 鉴于 zookeeper 本身的特点,服务器集群的节点数推荐设置为奇数台。我这里我规划为三台, 为别为 hadoop01,hadoop02,hadoop03 1、下载地址: http://mirrors.hust.edu.cn/apache/zookeeper/ 版本 阅读全文
摘要:
一、Zookeeper是什么 (安装的是3.4.7) ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现。它提供了简单原始的功能,分布式应用可以基于它实现更高级 的服务, 比如分布式同步, 配置管理, 集群管理, 命名空间,队列管 阅读全文
摘要:
一、shuffle机制 1、概述 (1)MapReduce 中, map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle;(2)Shuffle: 数据混洗 ——(核心机制:数据分区,排序,缓存);(3) 具体来说:就是将 m 阅读全文
摘要:
一、MapJoin-DistributedCache 应用 1、mapreduce join 介绍 在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的。如果两份数据 都比较小,那么可以直接在内存中完成连接。如果是大数据量的呢? 显然,在内存中进行连 接会发生 OOM。 MapRedu 阅读全文
摘要:
一、介绍 1、数据库 数据库,通俗的讲,即为存储数据的“仓库”。不过,数据库不仅只是存储,还对所存储的数据做相应的管理,例如,访问权限,安全性,并发操作,数据的备份与恢复,日志等。实际上,我们所提及的数据库,就是数据库管理系统。( DBMS,Database Management System) 2 阅读全文
摘要:
一、mapreduce多job串联 1、需求 一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理,多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 2、实例 以下有两个 MapReduce 任务,分别是 Flow 的 SumMR 和 SortMR, 阅读全文
摘要:
mapreduce三大组件:Combiner\Sort\Partitioner 默认组件:排序,分区(不设置,系统有默认值) 一、mapreduce中的Combiner 1、什么是combiner Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件,它 阅读全文
摘要:
一、mapreduce入门 1、什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度系统Common: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等 Mapredu 阅读全文
摘要:
一、Hive 执行过程实例分析 1、join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid); 执行的最后结果条数: page_view 表中的 userid 数目 阅读全文
摘要:
一、视图 视图:享用基本表的数据,不会生成另外一份数据创建视图:create view view_name as select * from carss;create view carss_view as select * from carss limit 500;查看视图:desc view_na 阅读全文