摘要:
ZooKeeper简介 ZooKeeper是一个分布式应用程序协调服务,主要用于解决分布式集群中应用系统的一致性问题。它能提供类似文件系统的目录节点树方式的数据存储,主要用途是维护和监控所存数据的状态变化,以实现对集群的管理。 ZooKeeper应用场景: 统一命名 配置管理 集群管理 阅读全文
posted @ 2020-03-17 19:20
大数据实战派
阅读(1635)
评论(0)
推荐(0)
摘要:
MapReduce简介 MapReduce常用于对大规模数据集(大于1TB)的并行运算,或对大数据进行加工、挖掘和优化等处理。 MapReduce将并行计算过程高度抽象到了两个函数map和reduce中,程序员只需负责map和reduce函数的编写工作,而并行程序中的其它复杂问题(如分布式存储、工作 阅读全文
posted @ 2020-03-17 19:16
大数据实战派
阅读(1064)
评论(0)
推荐(0)
摘要:
HDFS简介 HDFS是Hadoop项目的核心子项目,在大数据开发中通过分布式计算对海量数据进行存储与管理,它基于流数据模式访问和处理超大文件的需求而开发,可以运行在廉价的商用服务器上,为海量数据提供了不怕故障的存储方法,进而为超大数据集的应用处理带来了很多便利。 HDFS的特点: 支持大型数据 阅读全文
posted @ 2020-03-17 19:07
大数据实战派
阅读(767)
评论(0)
推荐(0)
摘要:
大数据开发总体架构: Hadoop是大数据开发所使用的一个核心框架。使用Hadoop可以方便的管理分布式集群,将海量数据分布式的存储在集群中,并使用分布式并行程序来处理这些数据。 Hadoop由许多子系统组成,如下图: Hadoop1.x与2.x的对比: YARN:管理集群资源(内存、CPU) 阅读全文
posted @ 2020-03-17 19:01
大数据实战派
阅读(225)
评论(0)
推荐(0)