大数据概念
什么样的数据才可以称之为是"大数据"?
1.海量:数据量一定要大 2.高增长率:一定的时间内数据快速增长 3.多样化:数据的种类千奇百怪
研究大数据的目的
1.海量数据的存储
2.海量数据的分析计算
重要的度量单位
bit、Byte、KB、MB、GB、TB、 PB、EB、ZB、YB、BB、NB、DB # 之间换算1024倍
狭义上来说hadoop相当于一款数据库软件
广义上来说hadoop是一个大数据神态圈
2006正式的诞生 标志着大数据时代的到来 图标是一个大象。

Apache版本 最原始(最基础)的版本,对于⼊⻔学习最好。2006 Cloudera 内部集成很多⼤数据框架,对应产品CDH。 2008 Hortonworks ⽂档较好,对应产品HDP。 2011
ps:Hortonworks已经被Cloudera公司收购推出新品牌CDP
Hadoop1.X MapReduce # 计算与资源调度 HDFS # 数据存储 Common # 辅助工具 Hadoop2.X与3.X MapReduce # 计算 Yarn # 资源调度 HDFS # 数据存储 Common # 辅助工具
NameNode(nn):存储文件的元数据 # 相当于目录 DataNode(dn):存储文件的真实数据 # 当对于文本内容 Secondary NameNode(2nn):辅助NameNode工作 # 相当于备用设施
Resource Manager:类似于大老板
Node Manager:类似于各部门经理
Application Master:类似于部门中真正干活的员工
Container:类似于每个部门拥有的各项资源
Map就是将复杂的任务拆分成多个小任务分发给不同的节点完成
Reduce就是将每个节点完成的小人物汇总到一起
数据来源层
针对结构化数据(关系型数据库)采用sqoop进行数据同步
针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步



浙公网安备 33010602011771号