大数据入门与Hadoop

概要

  • 大数据

  • Hadoop


详情

  • 大数据

  什么样的数据才能被称为“大数据”???

    1、海量:数据足够多。

    2、高增长率:单位时间内数据增长速度非常快。

    3、多样化:数据的种类多种多样

  为什么要研究大数据?

    1、为了存储海量的数据。

    2、为了进行海量数据的分析与计算。

  重要的度量单位

    bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB

    一般来说,大数据指的是PB级别甚至更多的数据量。

      


  • Hadoop 

  Hadoop的概念

    狭义上来说hadoop相当于一款数据库软件。

    广义上来说hadoop是一个大数据神态圈。

    它于2006正式的诞生,标志着大数据时代的到来!

    图标是制作人儿子的大象

    

  Hadoop主要版本

    Hadoop一般有三种主要的版本系列Apache、Cloudera、Hortonworks。

    Apache
      最原始、最基础的版本,对于⼊⻔学习最好。2006发行

       

    Cloudera
      内部集成很多⼤数据框架,对应产品CDH。 2008发行
    Hortonworks
      ⽂档较好,对应产品HDP。 2011发行
  ps:Hortonworks已经被Cloudera公司收购推出新品牌CDP。

Hadoop版本号区别

Hadoop1.X
    MapReduce  # 计算与资源调度
    HDFS  # 数据存储
    Common  # 辅助工具
Hadoop2.X与3.X(对计算与资源调度的功能做进一步拆分)
    MapReduce  # 计算
    Yarn  # 资源调度
    HDFS  # 数据存储
    Common  # 辅助工具

HDFS架构组成

NameNode(nn): 存储文件的元数据。  # 相当于目录
DataNode(dn): 存储文件的真实数据。  # 当对于文本内容
Secondary NameNode(2nn): 辅助NameNode工作。  # 相当于备用设施

Yarn架构组成

# 做个比喻
Resource Manager: 大老板
Node Manager: 各部门经理
Application Master: 部门中真正干活的员工
Container: 每个部门拥有的各项资源

MapReduce架构组成

# 做个比喻
Map: 将复杂的任务拆分成多个小任务分发给不同的节点完成。
Reduce: 将每个节点完成的小任务汇总到一起。

技术生态圈

''' 数据来源层 '''
针对结构化数据(关系型数据库)采用sqoop进行数据同步
针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步

 

posted @ 2021-10-27 16:09  Leguan001  阅读(46)  评论(0)    收藏  举报