随笔分类 -  Hadoop2.x

摘要:hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA 注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hado 阅读全文
posted @ 2017-05-04 10:56 ahu-lichang 阅读(4591) 评论(0) 推荐(1)
摘要:MapReduce的shuffle机制 1、概述 mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle; shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输出的 阅读全文
posted @ 2017-05-01 22:25 ahu-lichang 阅读(506) 评论(0) 推荐(0)
摘要:MapReduce编程规范: (1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端) (2)Mapper的输入数据是KV对的形式(KV的类型可自定义) (3)Mapper的输出数据是KV对的形式(KV的类型可自定义) (4)Mapper中的业务逻辑写 阅读全文
posted @ 2017-04-28 22:50 ahu-lichang 阅读(364) 评论(0) 推荐(0)
摘要:Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 1.1 为什么要MAPREDUCE (1)海量数据在单机上 阅读全文
posted @ 2017-04-28 22:35 ahu-lichang 阅读(494) 评论(0) 推荐(0)
摘要:HDFS基本概念 1、HDFS设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析 2、概念和特性 概念:HDFS是一个分布式的文件系统。 特性: (1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs 阅读全文
posted @ 2017-04-26 23:02 ahu-lichang 阅读(866) 评论(0) 推荐(2)
摘要:1、离线数据分析流程 一个应用广泛的数据分析系统:“web日志数据挖掘” 1.1 需求分析 1.1.1 案例名称 “网站或APP点击流日志数据挖掘系统”。 1.1.2 案例需求描述 “Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页 阅读全文
posted @ 2017-04-24 10:30 ahu-lichang 阅读(5324) 评论(0) 推荐(0)
摘要:hadoop集群搭建(亲自操作成功步骤!值得信赖!) 1.1集群简介 hadoop的核心组件: HDFS(分布式文件系统) YARN(运算资源调度系统) MapReduce(分布式运算编程框架) HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HD 阅读全文
posted @ 2017-04-23 23:05 ahu-lichang 阅读(414) 评论(0) 推荐(0)