大数据概念

大数据的概念

什么样的数据才可以称之为是"大数据"?

1.海量:数据量一定要大
2.高增长率:一定的时间内数据快速增长
3.多样化:数据的种类千奇百怪

研究大数据的目的

1.海量数据的存储
2.海量数据的分析计算

重要的度量单位

bit、Byte、KB、MB、GB、TB、
PB、EB、ZB、YB、BB、NB、DB

# 之间换算1024倍

Hadoop

狭义上来说hadoop相当于一款数据库软件
广义上来说hadoop是一个大数据神态圈

2006正式的诞生 标志着大数据时代的到来 图标是一个大象。

Hadoop主要版本

Apache版本
    最原始(最基础)的版本,对于⼊⻔学习最好。2006
Cloudera
    内部集成很多⼤数据框架,对应产品CDH。 2008
Hortonworks
    ⽂档较好,对应产品HDP。 2011

ps:Hortonworks已经被Cloudera公司收购推出新品牌CDP

Hadoop版本号区别

Hadoop1.X
    MapReduce  # 计算与资源调度
    HDFS  # 数据存储
    Common  # 辅助工具

Hadoop2.X与3.X
    MapReduce  # 计算
    Yarn  # 资源调度
    HDFS  # 数据存储
    Common  # 辅助工具

HDFS架构组成

NameNode(nn):存储文件的元数据  # 相当于目录

DataNode(dn):存储文件的真实数据  # 当对于文本内容

Secondary NameNode(2nn):辅助NameNode工作  # 相当于备用设施

Yarn架构组成

Resource Manager:类似于大老板

Node Manager:类似于各部门经理

Application Master:类似于部门中真正干活的员工

Container:类似于每个部门拥有的各项资源

可以看一下这个图帮助理解>>>

MapReduce架构组成

Map就是将复杂的任务拆分成多个小任务分发给不同的节点完成

Reduce就是将每个节点完成的小人物汇总到一起

技术生态圈

数据来源层 
    针对结构化数据(关系型数据库)采用sqoop进行数据同步
    针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步

 

posted @ 2021-10-28 00:12  lovewx35  阅读(416)  评论(0)    收藏  举报