Hadoop 学习笔记 (1) -- 初识Hadoop
1. 数据存储与分析
问题:
在硬盘存储容量不断上升的今天,传输速率并没有提升(TB 级的硬盘已经成为了存储的主流,但是传输速度还停留在 100M/s ,
读完整个硬盘的数据需要 2.5 个小时),这个就产生了效率的问题。
解决:
如果我们有100个硬盘,每个硬盘存储 1% 的数据,并行读取,那么不到 两分钟的时间,我们就可以读取完所有的数据。
存储 1% 的数据,似乎造成了硬盘的浪费,但是我们可以存储100 个数据集,实现共享硬盘的读取。
疑问:
1. 硬件故障
为了避免数据丢失,常见的做法是复制(replication):系统保留数据的副本(replica),一旦有系统发生故障,就可以使用另外
的副本。
2. 需要结合各个硬盘的数据完成共同的分析
MapReduce 提出一个编程模型,来解决不同硬盘数据的组合问题
总结:
Hadoop 为我们提供了一个 共享存储 和 分析系统
HDFS:实现数据的存储
MapReduce: 实现数据的分析和处理
HDFS 和 MapReduce 是hadoop 的核心
2. MapReduce 和 数据库管理系统(RDBMS)的区别
MapReduce:
MapReduce 是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。
区别:
RDBMS 适合处理结构化数据(例如 xml)
MapReduce 对 非结构化 或 半结构化 的数据处理非常有效,因为它是在数据处理时才对数据进行解释。

浙公网安备 33010602011771号