学习随笔201026

curator

  包含了两个核心的包

    curator-framework:对zookeeper底层的一些封装。

    curator-recipes:封装了一些高级特性,watch事件监听,选举,分布式锁,分布式计数器。

 

Hadoop

  起源于nutch,nutch的设计目标是构建一个大型的全网搜索引擎。包括网页抓取,索引,查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和搜索引擎问题

  2003年与2004年,谷歌先后发表了两篇论文:分布式文件系统GFS与分布式计算框架MAPREDUCE,可用于处理海量网页的引擎计算问题

  nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从nutch中剥离成为独立项目Hadoop,到2008年,Hadoop成为Apache顶级项目

 

狭义上来说,Hadoop就是单独指代Hadoop这个软件,

  HDFS:分布式文件系统

  MapReduce:分布式计算系统

  Yarn:分布式集群资源管理器

广义上来说,Hadoop代指大数据的一个生态圈,包括很多其他的软件与框架

  分布式文件系统:对于我个人理解,我们举个例子,如果我有一个文件需要600G的内存空间,然而我此时只有3台500G内存的主机,此时无论我使用哪一台主机都是不可能把这个文件完整的存储下来的,此时我讲这个文件分成三份,每份200G,那么就可以将这个文件分别存到3台主机,然后再新加一台主机,用来统筹资源信息,也就是client,但这样就会出现文件不可靠,如果我的第一台主机挂掉了,那么这个文件讲无法使用,那么我们还可以将每个文件块添加一个副本,再次交互存储一下,提高了文件的可靠性,而且这种方式是可以横向扩展的,如果内存不够了,还可以在集群中横向的新增主机。

  分布式计算框架的原理相同,如果我要计算1000000!,那么我一样可以讲这个过程多等分,同步计算每个公式,最后再进行统筹

  这就是我们所说的分而治之。

 

posted @ 2020-10-26 19:33  亲爱的达瓦里氏  阅读(57)  评论(0)    收藏  举报