Hadoop 学习笔记(一)大数据概论

一、什么是大数据?

大数据(Big Data) :在一定时间范围内无法通过常规软件进行捕捉,处理和管理的一系列数据集合,大数据主要解决的是海量数据的存储分析计算问题。

二、大数据特点

 大量  多样 高速 低价值密度

三、Hadoop  是什么?

  1、Hadoop 狭义上就是 Apache Hadoop,一个顶级的分布式系统基础架构,主要用于解决海量数据的存储和分析计算问题;

  2、广义上来讲:Hadoop  指更广泛的概念—— Hadoop 生态圈;

 Hadoop 生态圈常用的项目:

  • HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储;
  • Hive™:提供数据汇总和即席查询的数据仓库基础架构;
  • Spark™:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,它支持广泛的应用程序,包括ETL,机器学习,流处理和图计算;
  • ZooKeeper™:分布式应用程序的高性能协调服务;
  • Sqoop:数据迁入迁出工具;
  • Flume:日志采集工具;

 四、Hadoop 发展简史

2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案

——分布式文件系统(GFS),可用于处理海量网页的存储;

——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题;

——BigTable 数据库:OLTP 联机事务处理 Online Transaction Processing 增删改;
          OLAP 联机分析处理 Online Analysis Processing 查询;
          真正的作用:提供了一种可以在超大数据集中进行实时CRUD操作的功能

2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

五、Hadoop 组成

Hadoop 2.x 版本主要有以下部分组成

MapReduce 主要用于 基于 HDFS 存储数据的分析计算;

Yarn : 用于 Hadoop 资源调度和作业间的管理;

HDFS:Haddop 分布式文件系统,解决了对海量数据的存储问题;

Common:支持其他Hadoop模块的常用工具

说明:Hadoop 1.x 和 Hadoop2.x 组成上的区别在于:Hadoop2.x 增加了组件 Yarn 用户资源调度,而在 Haddop1.X中 Map reduce 负责资源调度和分析计算两项工作;

 六、Hadoop 发展前景

党的十八大提出 “实施国家大数据战略”,当前正处于大数据行业发展的黄金期; 

党的十九大提出 "推动互联网,大数据,人工智能和实体经济深度融合发展";

国内二线及以上城市推出智慧城市建设,而智慧城市的根基就是大数据综合治理平台;

国内相对于 Java 方向从业者来说,大数据从业者缺口较大;

七、Hadoop 从业要求 

  • Hadoop 分布式集群的平台搭建;
  • Hadoop 分布式文件系统HDFS的原理理解及使用;
  • Hadoop  分布式运算框架MAPREDUCE的原理理解及编程;
  • Hive 数据仓库工具的熟练应用;
  • Flume、sqoop、oozie等辅助工具的熟练使用;
  • Shell/python等脚本语言的开发能力;
  • Oracle/Mysql 数据库的使用,熟练的 SQL 功底;
posted @ 2020-10-09 21:26  晓枫的春天  阅读(204)  评论(0编辑  收藏  举报