• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
珍珠奶茶不加糖
博客园    首页    新随笔    联系   管理    订阅  订阅
Hadoop基础之Hadoop概述

Hadoop基础之Hadoop概述

Hadoop基础之Hadoop概述

什么是Hadoop

  • Hadoop是一个可靠的、可扩展的,可以分布式计算的开源软件(计算框架)
  • 使用简单模型在集群中分布式处理海量数据
  • 集群:从硬件的角度分析
  • 分布式:从软件的角度分析
  • 节点的数量可以从单一一个服务到成千上万个服务,每一个节点都独自的存储和计算
  • 相对于在硬件层次上做优化,在应用程序层次做优化更好,与硬件无关,只与集群中任务的分配有关
  • 任何一个节点都有可能出错(宕机),如果一个节点出问题,集群中还有其他节点继续完成工作
  • 从不同角度分析
    • 从具体内容的角度,Hadoop就是一个分布式的计算框架
    • 从大数据的整体来说,特制Hadoop生态圈

hadoop(大数据)主要解决的问题

  • 海量的数据怎么存
  • 海量的数据怎么算

Hadoop四大组件

  • HDFS
    • Hadoop   Distributed   File   System
    • 分布式文件存储
    • 解决海量数据怎么存储的组件
    • 三个角色
      • NameNode -- 主节点,全局唯一,存储的是元数据(描述数据的数据)
      • DateNode -- 从节点,全局可以有任意个,存储真实数据
      • SecondaryNameNode -- NameNode的备份节点,全局只有一个,一般不与NameNode在一起
  • MapReduce
    • 解决的就是海量数据怎么计算的问题
  • Yarn
    • 资源调度器
  • Common
    • 与Hadoop生态圈的其他组件整合时需要的内容

Hadoop名字的由来

  • Hadoop:作者的女儿的黄色玩具小象(Hadoop)
  • HDFS:来源于Google的论文GFS
  • MapReduce:来源于Google论文Map-Reduce
  • HBase:来源于Google论文BigTable

Hadoop版本

  • 普通版
    • 安装比较简单,提供了最基础的功能,适合初学者
  • 商业版
    • 添加额外的一些功能,比较专业,但是可能会收费

Hadoop作者和发展历程

  • 百度
如有问题,请发送邮件至buxiaqingcheng@163.com或者buxiaqingcheng@dingtalk.com
posted on 2020-10-25 15:20  珍珠奶茶不加糖  阅读(121)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3