hadoop - 随笔分类 - blog_hfg

HDFS

摘要：HDFS以流式数据访问模式来存储超大文件，特点超大文件：GB,TB,甚至是PB级流式数据访问：商用硬件：硬件普通普遍低时间延迟的数据访问：HDFS并不适合地时间延迟数据访问的应用，HBase是更好的选择大量的小文件单个writer 数据块磁盘块(512字节) 文件系统块（磁盘块的整数快阅读全文

posted @ 2018-04-09 20:18 blog_hfg

二

摘要：MapReduce作业是客户端需要执行的一个工作单元：它包括输入数据，MAPReduce程序和配置信息有两类节点控制着作业执行过:一个jobtracker及以一系列tasktracker jobtracker是管理者，通过调度tasktracker上运行的任务来协调所有运行在系统上的作业。task 阅读全文

posted @ 2018-04-03 19:48 blog_hfg

一

摘要：数据产生的速度是指数增长的硬盘传输速度提速太慢大多数分析任务需要以某种方式结合大部分数据来共同完成分析（从一个硬盘读取的数据可能需要从另外99个硬盘中读取的数据综合使用） HDFS和MapReduce是Hadoop的核心优势 Mapreduce是一个批量查询处理器，解放了硬盘上的数据 MapR 阅读全文

posted @ 2018-03-29 20:27 blog_hfg

主页

摘要：hadoop分为几大部分：yarn负责资源和任务管理、hdfs负责分布式存储、map reduce负责分布式计算 hdfs是所有hadoop生态的底层存储架构，它主要完成了分布式存储系统的逻辑，凡是需要存储的都基于其上构建 yarn是负责集群资源管理的部分，这个资源包括计算资源和存储资源，因此它也支阅读全文

posted @ 2018-03-20 17:21 blog_hfg

blog_hfg

随笔分类 - hadoop

公告