Hadoop-01_大数据入门

1 大数据概论

1.1 大数据概念

对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力

的海量、高增长率和多样化的信息资产。

大数据概念

1.2 大数据特点

1、数据量大

人类社会产生的数据每两年就增加一倍——“大数据摩尔定律”。

2、数据类型繁多

大数据的数据类型丰富,包括结构化数据和非结构化数据,其中,结构化数据占10%左右,主要是指存储在关系数据库中的数据;后者占90%左右,种类繁多,主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

3、处理速度快

数据处理和分析的速度通常要达到秒级响应。

4、价值密度低

    在大数据时代,很多有价值的信息都是分散在海量数据中的。譬如监控视频,平时可能没有什么作用,但当发生盗窃事件时,只有记录了案发时刻的那一段视频是有用的。

 

1.3、大数据部门组织结构

 


大数据部门组织结构


2 从Hadoop框架讨论大数据生态


2.1 Hadoop是什么?

 


Hadoop概念

2.2 Hadoop的优势

 


优势


2.3 Hadoop的组成(重点)

 


区别


2.4 HDFS架构概述

 


HDFS架构示意图


2.5 Yarn架构

 


资源调度示意图


2.6 MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

 


MapReduce架构理解
posted @ 2020-04-20 22:58  喝Pepsi的陈子豪  阅读(54)  评论(0)    收藏  举报