随笔分类 - Hadoop
摘要:1、把需要的处理的文件先得传输到hdfs上去 2、把mapreducer程序打成jar包传输到linux中 3、在yarn上跑jar包 hadoop jar jar包名 main方法的入口名称 一、导入pom文件 <repositories> <repository> <id>cloudera</i
阅读全文
摘要:一、基本概念 一句话概括:HDFS是hadoop分布式文件系统,作用是存储大数据文件,是hadoop领域最基础的部分。 二、HDFS的重要特性 一群屌丝机组成高富帅 1、主从架构 namenode作为master负责管理元数据,datanode作为从节点存储block块数据 主从:通常是一主多从,主
阅读全文
摘要:一、介绍 01) 分布式协调服务的开源框架,主要解决分布式集群中应用系统间的一致性问题. 02) 小文件的存储系统(数据存放在内存中,数据量有大小限制), 以树形结构进行组织数据 03) 可以维护和监控数据状态的变化,通过监控数据状态的变化,达到分布式系统中集群管理的效果. 04) 分布式程序: 可
阅读全文
摘要:一、yarn运行机制 yarn是一种全新的 Hadoop资源管理器,他是一个通用资源管理平台和调度平台,可为上层应用提供统一的资源管理和调度,mapreduce等运算程序则相当于运行于操作紫铜上的应用程序,yarn为这些程序提供运算所需的资源内存、cpu() yarn并不清楚用户提交的程序的运行机制
阅读全文