Hadoop 学习笔记（一）大数据概论

一、什么是大数据？

大数据(Big Data) ：在一定时间范围内无法通过常规软件进行捕捉，处理和管理的一系列数据集合，大数据主要解决的是海量数据的存储和分析计算问题。

二、大数据特点

大量多样高速低价值密度

三、Hadoop 是什么？

　　1、Hadoop 狭义上就是 Apache Hadoop，一个顶级的分布式系统基础架构，主要用于解决海量数据的存储和分析计算问题；

　　2、广义上来讲：Hadoop 指更广泛的概念—— Hadoop 生态圈；

Hadoop 生态圈常用的项目：

HBase™：可扩展的分布式数据库，支持大型表格的结构化数据存储；
Hive™：提供数据汇总和即席查询的数据仓库基础架构；
Spark™：用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型，它支持广泛的应用程序，包括ETL，机器学习，流处理和图计算；
ZooKeeper™：分布式应用程序的高性能协调服务；
Sqoop：数据迁入迁出工具；
Flume：日志采集工具；

四、Hadoop 发展简史

2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。

——分布式文件系统（GFS），可用于处理海量网页的存储；

——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题；

——BigTable 数据库：OLTP 联机事务处理 Online Transaction Processing 增删改；
　　　　　　　　　　OLAP 联机分析处理 Online Analysis Processing 查询；
　　　　　　　　　　真正的作用：提供了一种可以在超大数据集中进行实时CRUD操作的功能

2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期。

五、Hadoop 组成

Hadoop 2.x 版本主要有以下部分组成

MapReduce 主要用于基于 HDFS 存储数据的分析计算；

Yarn : 用于 Hadoop 资源调度和作业间的管理；

HDFS：Haddop 分布式文件系统，解决了对海量数据的存储问题；

Common:支持其他Hadoop模块的常用工具

说明：Hadoop 1.x 和 Hadoop2.x 组成上的区别在于：Hadoop2.x 增加了组件 Yarn 用户资源调度，而在 Haddop1.X中 Map reduce 负责资源调度和分析计算两项工作；

六、Hadoop 发展前景

党的十八大提出 “实施国家大数据战略”，当前正处于大数据行业发展的黄金期；

党的十九大提出 "推动互联网,大数据，人工智能和实体经济深度融合发展"；

国内二线及以上城市推出智慧城市建设，而智慧城市的根基就是大数据综合治理平台；

国内相对于 Java 方向从业者来说，大数据从业者缺口较大；

七、Hadoop 从业要求

Hadoop 分布式集群的平台搭建；
Hadoop 分布式文件系统HDFS的原理理解及使用；
Hadoop 分布式运算框架MAPREDUCE的原理理解及编程；
Hive 数据仓库工具的熟练应用；
Flume、sqoop、oozie等辅助工具的熟练使用；
Shell/python等脚本语言的开发能力；
Oracle/Mysql 数据库的使用，熟练的 SQL 功底；

posted @ 2020-10-09 21:26 晓枫的春天阅读(290) 评论(0) 收藏举报

刷新页面返回顶部

滴水穿石不是靠力，而是因为不舍昼夜。