Hadoop2.x - 随笔分类 - ahu-lichang

hadoop2.6.4的HA集群搭建超详细步骤

摘要：hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA 注意：apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hado 阅读全文

posted @ 2017-05-04 10:56 ahu-lichang 阅读(4597) 评论(0) 推荐(1)

MapReduce原理2

摘要：MapReduce的shuffle机制 1、概述 mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle； shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；具体来说：就是将maptask输出的阅读全文

posted @ 2017-05-01 22:25 ahu-lichang 阅读(512) 评论(0) 推荐(0)

MapReduce实战1

摘要：MapReduce编程规范：（1）用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端) （2）Mapper的输入数据是KV对的形式（KV的类型可自定义）（3）Mapper的输出数据是KV对的形式（KV的类型可自定义）（4）Mapper中的业务逻辑写阅读全文

posted @ 2017-04-28 22:50 ahu-lichang 阅读(367) 评论(0) 推荐(0)

MapReduce原理1

摘要：Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架； Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 1.1 为什么要MAPREDUCE （1）海量数据在单机上阅读全文

posted @ 2017-04-28 22:35 ahu-lichang 阅读(504) 评论(0) 推荐(0)

HDFS详解

摘要：HDFS基本概念 1、HDFS设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析 2、概念和特性概念：HDFS是一个分布式的文件系统。特性：（1）HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs 阅读全文

posted @ 2017-04-26 23:02 ahu-lichang 阅读(888) 评论(0) 推荐(2)

离线数据分析流程及推荐系统架构图

摘要：1、离线数据分析流程一个应用广泛的数据分析系统：“web日志数据挖掘” 1.1 需求分析 1.1.1 案例名称 “网站或APP点击流日志数据挖掘系统”。 1.1.2 案例需求描述 “Web点击流日志”包含着网站运营很重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页阅读全文

posted @ 2017-04-24 10:30 ahu-lichang 阅读(5350) 评论(0) 推荐(0)

hadoop2.6.4集群的搭建

摘要：hadoop集群搭建（亲自操作成功步骤！值得信赖！） 1.1集群简介 hadoop的核心组件： HDFS（分布式文件系统） YARN（运算资源调度系统） MapReduce（分布式运算编程框架） HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起 HD 阅读全文

posted @ 2017-04-23 23:05 ahu-lichang 阅读(429) 评论(0) 推荐(0)

ahu-lichang

随笔分类 - Hadoop2.x

公告