Hadoop 学习笔记 (1) -- 初识Hadoop

1. 数据存储与分析

    问题:

           在硬盘存储容量不断上升的今天,传输速率并没有提升(TB 级的硬盘已经成为了存储的主流,但是传输速度还停留在 100M/s ,

           读完整个硬盘的数据需要 2.5 个小时),这个就产生了效率的问题。

    解决:

           如果我们有100个硬盘,每个硬盘存储 1% 的数据,并行读取,那么不到 两分钟的时间,我们就可以读取完所有的数据。 

           存储 1% 的数据,似乎造成了硬盘的浪费,但是我们可以存储100 个数据集,实现共享硬盘的读取。

    疑问:

          1. 硬件故障

              为了避免数据丢失,常见的做法是复制(replication):系统保留数据的副本(replica),一旦有系统发生故障,就可以使用另外

              的副本。

          2. 需要结合各个硬盘的数据完成共同的分析

              MapReduce 提出一个编程模型,来解决不同硬盘数据的组合问题

    总结:

              Hadoop 为我们提供了一个 共享存储 和 分析系统

              HDFS:实现数据的存储

              MapReduce: 实现数据的分析和处理

              HDFS 和 MapReduce 是hadoop 的核心

2. MapReduce 和 数据库管理系统(RDBMS)的区别

    MapReduce:

        MapReduce 是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。

    区别:

        RDBMS 适合处理结构化数据(例如 xml)

        MapReduce 对 非结构化 或 半结构化 的数据处理非常有效,因为它是在数据处理时才对数据进行解释。

       

 

 

   

 

posted on 2017-06-01 17:36  零零多  阅读(166)  评论(0)    收藏  举报

导航