随笔分类 - hadoop
摘要:HDFS以流式数据访问模式来存储超大文件,特点 超大文件:GB,TB,甚至是PB级 流式数据访问: 商用硬件:硬件普通普遍 低时间延迟的数据访问:HDFS并不适合地时间延迟数据访问的应用,HBase是更好的选择 大量的小文件 单个writer 数据块 磁盘块(512字节) 文件系统块(磁盘块的整数快
阅读全文
posted @ 2018-04-09 20:18
blog_hfg
摘要:MapReduce作业是客户端需要执行的一个工作单元:它包括输入数据,MAPReduce程序和配置信息 有两类节点控制着作业执行过:一个jobtracker及以一系列tasktracker jobtracker是管理者,通过调度tasktracker上运行的任务来协调所有运行在系统上的作业。task
阅读全文
posted @ 2018-04-03 19:48
blog_hfg
摘要:数据产生的速度是指数增长的 硬盘传输速度提速太慢 大多数分析任务需要以某种方式结合大部分数据来共同完成分析(从一个硬盘读取的数据可能需要从另外99个硬盘中读取的数据综合使用) HDFS和MapReduce是Hadoop的核心 优势 Mapreduce是一个批量查询处理器,解放了硬盘上的数据 MapR
阅读全文
posted @ 2018-03-29 20:27
blog_hfg
摘要:hadoop分为几大部分:yarn负责资源和任务管理、hdfs负责分布式存储、map reduce负责分布式计算 hdfs是所有hadoop生态的底层存储架构,它主要完成了分布式存储系统的逻辑,凡是需要存储的都基于其上构建 yarn是负责集群资源管理的部分,这个资源包括计算资源和存储资源,因此它也支
阅读全文
posted @ 2018-03-20 17:21
blog_hfg

浙公网安备 33010602011771号