hadoop知识点1

1.大数据

(1) 概念

a.无法在一定时间内通过常规软件进行抓取、管理和处理的数据

b.解决海量数据的存储和计算问题

(2)特性：数量大Volume，增长快Velocity，种类多Variety，价密低Value

(3)固有特性：时效性，不可改变性

(4)分布式计算

a.传统分布式：

1) 多数据节点-copy data->但计算节点 master

2) 特点：数据量小，受限于单体计算节点CPU性能

3) 提升方法：提升单体计算机的运算能力

b.hadoop分布式

1) 多具有存储和运算功能节点 -copy computed result from single node->汇总计算节点

2) 特点：数据量大，受单体计算节点影响小

3) 提示方法：扩展低成本集群

2.hadoop

(1) 概念：开源分布计算框架

(2) hadoop生态圈

HDFS与MapReduce的结合是强大的。在处理大数据的过程中，当Hadoop集群中的服务器出现错误时，整个计算过程并不会终止。同时HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求，数据可以是非结构化或其它类别。相反关系数据库在存储数据之前需要将数据结构化并定义架构。

开发人员编写代码责任是使数据有意义。HadoopMapReduce级的编程利用Java APIs，并可手动加载数据文件到HDFS之中。

Core：分布式系统和通用I/O组件和接口，支持序列化、Java远程过程调用等等。

MapReduce：构建在廉价的PC机器上分布式数据处理模型和运行环境。

HDFS：构建在廉价的PC机器上的分布式文件系统

Pig：处理海量数据集的数据流语言和运行环境。pig运行在MapReduce与HDFS之上。

HBase：面向列的分布式数据库。HBase使用HDFS作为底层存储，同时使用MapReduce支持批处理的计算和随即查询

ZooKeeper：提供分布式、高效协作服务。ZooKeeper提供分布式锁这样的原子操作，可以用来构建分布式应用

Hive：分布式数据仓库，Hive使用HDFS存储数据，提供类似SQL的语言查询数据

Chukwa：分布式数据采集和分析系统。使用HDFS存储数据，使用Mapreduce输出分析报告。

why to use hadoop?

1.高扩展性：添加数据节点

2.高可靠性：多个数据备份

3.高容错性：失败认为重新分配

4.低成本：允许部署在低价机器上

5.高灵活性：可以存储任何类型的数据库

6.开源：活跃社区

posted on 2020-08-22 09:23 尧啊尧阅读(208) 评论(0) 收藏举报