大数据入门与Hadoop
概要
-
大数据
-
Hadoop

详情
-
大数据
什么样的数据才能被称为“大数据”???
1、海量:数据足够多。
2、高增长率:单位时间内数据增长速度非常快。
3、多样化:数据的种类多种多样
为什么要研究大数据?
1、为了存储海量的数据。
2、为了进行海量数据的分析与计算。
重要的度量单位
bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
一般来说,大数据指的是PB级别甚至更多的数据量。

-
Hadoop
Hadoop的概念
狭义上来说hadoop相当于一款数据库软件。
广义上来说hadoop是一个大数据神态圈。
它于2006正式的诞生,标志着大数据时代的到来!
图标是制作人儿子的大象

Hadoop一般有三种主要的版本系列Apache、Cloudera、Hortonworks。
Apache
最原始、最基础的版本,对于⼊⻔学习最好。2006发行

Cloudera
内部集成很多⼤数据框架,对应产品CDH。 2008发行
Hortonworks
⽂档较好,对应产品HDP。 2011发行
ps:Hortonworks已经被Cloudera公司收购推出新品牌CDP。
Hadoop1.X MapReduce # 计算与资源调度 HDFS # 数据存储 Common # 辅助工具 Hadoop2.X与3.X(对计算与资源调度的功能做进一步拆分) MapReduce # 计算 Yarn # 资源调度 HDFS # 数据存储 Common # 辅助工具
NameNode(nn): 存储文件的元数据。 # 相当于目录 DataNode(dn): 存储文件的真实数据。 # 当对于文本内容 Secondary NameNode(2nn): 辅助NameNode工作。 # 相当于备用设施

# 做个比喻 Resource Manager: 大老板 Node Manager: 各部门经理 Application Master: 部门中真正干活的员工 Container: 每个部门拥有的各项资源
# 做个比喻 Map: 将复杂的任务拆分成多个小任务分发给不同的节点完成。 Reduce: 将每个节点完成的小任务汇总到一起。

''' 数据来源层 ''' 针对结构化数据(关系型数据库)采用sqoop进行数据同步 针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步




浙公网安备 33010602011771号