凌-风 - 博客园

2017年4月20日

摘要：一、zookeeper集群搭建鉴于 zookeeper 本身的特点，服务器集群的节点数推荐设置为奇数台。我这里我规划为三台，为别为 hadoop01,hadoop02,hadoop03 1、下载地址： http://mirrors.hust.edu.cn/apache/zookeeper/ 版本阅读全文

posted @ 2017-04-20 10:50 凌-风阅读(995) 评论(0) 推荐(0)

2017年4月19日

Zookeeper(一) zookeeper基础使用

摘要：一、Zookeeper是什么 (安装的是3.4.7) ZooKeeper 是一个分布式的，开放源码的分布式应用程序协调服务，是 Google 的 Chubby 一个开源的实现。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如分布式同步，配置管理，集群管理，命名空间，队列管阅读全文

posted @ 2017-04-19 22:43 凌-风阅读(1076) 评论(0) 推荐(0)

MapReduce(五) mapreduce的shuffle机制与 Yarn

摘要：一、shuffle机制 1、概述（1）MapReduce 中， map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 Shuffle；（2）Shuffle: 数据混洗 ——（核心机制：数据分区，排序，缓存）；（3）具体来说：就是将 m 阅读全文

posted @ 2017-04-19 22:28 凌-风阅读(1068) 评论(0) 推荐(0)

MapReduce(四) 典型编程场景（二）

摘要：一、MapJoin-DistributedCache 应用 1、mapreduce join 介绍在各种实际业务场景中，按照某个关键字对两份数据进行连接是非常常见的。如果两份数据都比较小，那么可以直接在内存中完成连接。如果是大数据量的呢？显然，在内存中进行连接会发生 OOM。 MapRedu 阅读全文

posted @ 2017-04-19 21:17 凌-风阅读(832) 评论(0) 推荐(0)

Mysql(一) 基本操作

摘要：一、介绍 1、数据库数据库，通俗的讲，即为存储数据的“仓库”。不过，数据库不仅只是存储，还对所存储的数据做相应的管理，例如，访问权限，安全性，并发操作，数据的备份与恢复，日志等。实际上，我们所提及的数据库，就是数据库管理系统。（ DBMS，Database Management System） 2 阅读全文

posted @ 2017-04-19 18:20 凌-风阅读(538) 评论(0) 推荐(0)

2017年4月17日

MapReduce(三) 典型场景（一）

摘要：一、mapreduce多job串联 1、需求一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理，多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 2、实例以下有两个 MapReduce 任务，分别是 Flow 的 SumMR 和 SortMR，阅读全文

posted @ 2017-04-17 17:59 凌-风阅读(3789) 评论(0) 推荐(0)

2017年4月14日

MapReduce(二)常用三大组件

摘要： mapreduce三大组件：Combiner\Sort\Partitioner 默认组件：排序，分区（不设置，系统有默认值）一、mapreduce中的Combiner 1、什么是combiner Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件，它阅读全文

posted @ 2017-04-14 17:28 凌-风阅读(5913) 评论(3) 推荐(0)

MapReduce(一) mapreduce基础入门

摘要：一、mapreduce入门 1、什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件：HDFS：分布式存储系统MapReduce：分布式计算系统YARN： hadoop 的资源调度系统Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等 Mapredu 阅读全文

posted @ 2017-04-14 11:54 凌-风阅读(133451) 评论(2) 推荐(15)

2017年4月13日

Hive(六)hive执行过程实例分析与hive优化策略

摘要：一、Hive 执行过程实例分析 1、join 对于 join 操作：SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid); 执行的最后结果条数： page_view 表中的 userid 数目阅读全文

posted @ 2017-04-13 22:00 凌-风阅读(7572) 评论(1) 推荐(3)

Hive（五）hive的高级应用

摘要：一、视图视图：享用基本表的数据，不会生成另外一份数据创建视图：create view view_name as select * from carss;create view carss_view as select * from carss limit 500;查看视图：desc view_na 阅读全文

posted @ 2017-04-13 21:05 凌-风阅读(5777) 评论(1) 推荐(4)

人生，唯有锻炼与读书不能辜负

公告