随笔分类 -  Hadoop大数据

关注Hadoop生态圈开源组件研究
摘要:YARN是Hadoop2.0中的资源管理系统,它的设计思想是将MRv1中的JobTracker拆分成两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序持有的ApplicationMaster。其中RM负责整个系统的资源管理和分配,AM负责单个应用程序的管理。 一、YAR 阅读全文
posted @ 2018-10-22 14:18 firstwin 阅读(805) 评论(0) 推荐(0)
摘要:HDFS(Hadoop Distributed File System)是Hadoop核心组成之一,是分布式计算中数据存储管理的基础,被设计成适合运行在通用硬件上的分布式文件系统。HDFS架构中有两类节点,一类是NameNode,又叫“元数据节点”,另一类是DataNode,又叫“数据节点”,分别执 阅读全文
posted @ 2018-10-22 11:44 firstwin 阅读(4452) 评论(0) 推荐(0)
摘要:MapReduce是一种分布式计算模型,是Hadoop的主要组成之一,承担大批量数据的计算功能。MapReduce分为两个阶段:Map和Reduce。 一、MapReduce的架构演变 客户端向JobTracker提交一个作业,JobTracker会把这个作业拆分成多份,然后分配给TaskTrack 阅读全文
posted @ 2018-05-11 08:48 firstwin 阅读(3375) 评论(0) 推荐(2)
摘要:大数据时代不可抗拒,应该是毋庸置疑的,但对于绝大多数企业来说,大数据本身仅是一个空泛的概念,不仅难以参与更难于控制。几乎任何规模企业,每时每刻都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰,这种感觉好像是守着金山却无从下手。大数据技术的意义不在于掌握庞大的数据信息,而在于对这些数据进行智 阅读全文
posted @ 2018-05-10 16:31 firstwin 阅读(640) 评论(0) 推荐(0)
摘要:一、简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 二、HDFS Hadoop Distributed File System,简称 阅读全文
posted @ 2018-05-10 16:08 firstwin 阅读(197) 评论(0) 推荐(0)