随笔分类 - hadoop
摘要:hadoop fs -count 命令 $ hadoop fs -count -q /user 1024 1021 10240 10132 2 1 108 hdfs://ns1/user 在count后面增加 -q 项可以查看当前文件夹的限额使用情况 第一个数值1024,表示总的文件包括文件夹的限额
阅读全文
摘要:持续更新中。。。。。。。。。。。。。。。。 1. 设置目录配额 命令:hadoop dfsadmin -setSpaceQuota 样例:hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen 注意: 这里统计空间的
阅读全文
摘要:一、 概述 该文档主要记录大数据平台的搭建CDH版的部署过程,以供后续部署环境提供技术参考。 1.1 主流大数据部署方法 目前主流的hadoop平台部署方法主要有以下三种: Apache hadoop CDH (Cloudera’s Distribution Including Apache Had
阅读全文
摘要:1. 递归读取文件名 1.1 递归实现读取文件名(scala + listFiles) 1.2 递归实现读取文件名(scala + listStatus) 注意:使用了全局buffer,以至于递归收集文件数目 1.3 列出某个目录读取文件名(scala) 2. 获取文件状态 2.1 HDFS文件的属
阅读全文
摘要:1. 读取HDFS文件 1.1 字符读取HDFS上的文件 1.2 字节流读取HDFS文件内容(API) 1.2.1 字节数组读取 1.2.1 hadoop工具类读取 1.3 URL流读取HDFS文件(不常用) 2. 写入HDFS文件 2.1 字节写入HDFS文件 2.2 HDFS 文件中追加(app
阅读全文
摘要:NameNode 高可用整体架构概述 在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNod
阅读全文
摘要:一、YARN基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的
阅读全文
摘要:MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作
阅读全文
摘要:hadoop 执行中的setup run cleanup context的作用1.简介1) setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资
阅读全文
摘要:简单实现hadoop程序,包括:hadoop2.x的实现写法 import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable;imp
阅读全文