摘要: 博客内容来自我啃的Hadoop权威指南,记录一下帮助自己理一下思路 Apache YARN是hadoop的集群资源管理系统,最初被引进hadoop2 是为了改善MapReduce的实现,但它具有足够的通用性,同样可以支持其他的分布式计算模型。 YARN的运行机制 YARN通过两类长期运行的守护进程提 阅读全文
posted @ 2018-07-09 10:08 集市里的猫 阅读(169) 评论(0) 推荐(0)
摘要: 博客内容来自我啃的Hadoop权威指南,记录一下帮助自己理一下思路 一、文件读取 步骤1,客户端通过调用 FileSystem 对象的 open() 方法来打开想读取的文件,对于 HDFS 来说,这个对象是分布式文件系统(DistributedFileSystem)的一个实例 步骤2,Distrib 阅读全文
posted @ 2018-07-08 20:34 集市里的猫 阅读(99) 评论(0) 推荐(0)
摘要: 博客内容来自《Hadoop权威指南:大数据的存储与分析》第4版,记录一下帮助自己理一下思路 一、数据块 一个文件的大小可以大于网络中任意一个磁盘的容量,文件中所有的块并不需要存储在同一个磁盘上,因此他们可以利用集群上任意一个磁盘存储。 使用抽象块作为存储单元而非整个文件,大大简化了存储子系统的设计。 阅读全文
posted @ 2018-07-08 17:31 集市里的猫 阅读(145) 评论(0) 推荐(0)
点击右上角即可分享
微信分享提示