1.大数据
(1) 概念
a.无法在一定时间内通过常规软件进行抓取、管理和处理的数据
b.解决海量数据的存储和计算问题
(2)特性:数量大Volume,增长快Velocity,种类多Variety,价密低Value
(3)固有特性:时效性,不可改变性
(4)分布式计算
a.传统分布式:
1) 多数据节点-copy data->但计算节点 master
2) 特点:数据量小,受限于单体计算节点CPU性能
3) 提升方法:提升单体计算机的运算能力
b.hadoop分布式
1) 多具有存储和运算功能节点 -copy computed result from single node->汇总计算节点
2) 特点:数据量大,受单体计算节点影响小
3) 提示方法:扩展低成本集群
2.hadoop
(1) 概念:开源分布计算框架
(2) hadoop生态圈
HDFS与MapReduce的结合是强大的。在处理大数据的过程中,当Hadoop集群中的服务器出现错误时,整个计算过程并不会终止。同时HFDS可保障在整个集群中发生故障错误时的数据冗余。当计算完成时将结果写入HFDS的一个节点之中。HDFS对存储的数据格式并无苛刻的要求,数据可以是非结构化或其它类别。相反关系数据库在存储数据之前需要将数据结构化并定义架构。
开发人员编写代码责任是使数据有意义。HadoopMapReduce级的编程利用Java APIs,并可手动加载数据文件到HDFS之中。
Core:分布式系统和通用I/O组件和接口,支持序列化、Java远程过程调用等等。
MapReduce:构建在廉价的PC机器上分布式数据处理模型和运行环境。
HDFS:构建在廉价的PC机器上的分布式文件系统
Pig:处理海量数据集的数据流语言和运行环境。pig运行在MapReduce与HDFS之上。
HBase:面向列的分布式数据库。HBase使用HDFS作为底层存储,同时使用MapReduce支持批处理的计算和随即查询
ZooKeeper:提供分布式、高效协作服务。ZooKeeper提供分布式锁这样的原子操作,可以用来构建分布式应用
Hive:分布式数据仓库,Hive使用HDFS存储数据,提供类似SQL的语言查询数据
Chukwa:分布式数据采集和分析系统。使用HDFS存储数据,使用Mapreduce输出分析报告。
why to use hadoop?
1.高扩展性:添加数据节点
2.高可靠性:多个数据备份
3.高容错性:失败认为重新分配
4.低成本:允许部署在低价机器上
5.高灵活性:可以存储任何类型的数据库
6.开源:活跃社区
浙公网安备 33010602011771号