随笔分类 -  Hadoop

摘要:1、把需要的处理的文件先得传输到hdfs上去 2、把mapreducer程序打成jar包传输到linux中 3、在yarn上跑jar包 hadoop jar jar包名 main方法的入口名称 一、导入pom文件 <repositories> <repository> <id>cloudera</i 阅读全文
posted @ 2019-10-24 20:52 我の女王 阅读(370) 评论(0) 推荐(0)
摘要:一、基本概念 一句话概括:HDFS是hadoop分布式文件系统,作用是存储大数据文件,是hadoop领域最基础的部分。 二、HDFS的重要特性 一群屌丝机组成高富帅 1、主从架构 namenode作为master负责管理元数据,datanode作为从节点存储block块数据 主从:通常是一主多从,主 阅读全文
posted @ 2019-10-24 18:50 我の女王 阅读(356) 评论(0) 推荐(0)
摘要:一、介绍 01) 分布式协调服务的开源框架,主要解决分布式集群中应用系统间的一致性问题. 02) 小文件的存储系统(数据存放在内存中,数据量有大小限制), 以树形结构进行组织数据 03) 可以维护和监控数据状态的变化,通过监控数据状态的变化,达到分布式系统中集群管理的效果. 04) 分布式程序: 可 阅读全文
posted @ 2019-10-07 21:35 我の女王 阅读(139) 评论(0) 推荐(0)
摘要:一、yarn运行机制 yarn是一种全新的 Hadoop资源管理器,他是一个通用资源管理平台和调度平台,可为上层应用提供统一的资源管理和调度,mapreduce等运算程序则相当于运行于操作紫铜上的应用程序,yarn为这些程序提供运算所需的资源内存、cpu() yarn并不清楚用户提交的程序的运行机制 阅读全文
posted @ 2019-09-22 22:01 我の女王 阅读(664) 评论(0) 推荐(0)