随笔分类 -  hadoop

hadoop之 参数调优
摘要:一、 hdfs-site.xml 配置文件 1、 dfs.blocksize 参数:hadoop文件块大小描述:新文件的默认块大小,以字节为单位,默认 134217728 字节。可以使用以下后缀(大小写不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(ex 阅读全文

posted @ 2018-02-24 10:17 张冲andy 阅读(866) 评论(0) 推荐(0) 编辑

hadoop之 Yarn 调度器Scheduler详解
摘要:概述 集群资源是非常有限的,在多用户、多任务环境下,需要有一个协调者,来保证在有限资源或业务约束下有序调度任务,YARN资源调度器就是这个协调者。 YARN调度器有多种实现,自带的调度器为Capacity Scheduler和Fair Scheduler。YARN资源调度器均实现Resource S 阅读全文

posted @ 2018-02-05 15:29 张冲andy 阅读(840) 评论(0) 推荐(0) 编辑

Hadoop之 MapReducer工作过程
摘要:一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。 在shuffle阶段还会发生copy(复制)和sort(排序)。 在MapRed 阅读全文

posted @ 2018-02-05 11:40 张冲andy 阅读(1464) 评论(0) 推荐(0) 编辑

hadoop 配置文件简析
摘要:文件名称 格式 描述hadoop-env.sh bash脚本 记录hadoop要用的环境变量core-site.xml hadoop 配置 xml hadoop core 配置项,例如 HDFS 和 Mapreduce 常用的i/o 设置等hdfs-site.xml hadoop 配置 xml HD 阅读全文

posted @ 2018-02-05 10:23 张冲andy 阅读(169) 评论(0) 推荐(0) 编辑

hadoop之 reduce个数控制
摘要:1、参数变更1.x 参数名 2.x 参数名 mapred.tasktracker.reduce.tasks.maximum mapreduce.tasktracker.reduce.tasks.maximummapred.reduce.tasks mapreduce.job.reduces 2、参数 阅读全文

posted @ 2018-02-03 20:02 张冲andy 阅读(864) 评论(0) 推荐(0) 编辑

hadoop之 map个数控制
摘要:hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来 阅读全文

posted @ 2018-02-03 17:06 张冲andy 阅读(2200) 评论(0) 推荐(0) 编辑

hadoop之 心跳时间与冗余快清除
摘要:1.Hadoop datanode节点超时时间设置 datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超 阅读全文

posted @ 2018-01-31 19:47 张冲andy 阅读(656) 评论(0) 推荐(0) 编辑

PIG之 Hadoop 2.7.4 + pig-0.17.0 安装
摘要:首先: 参考 http://blog.csdn.net/zhang123456456/article/details/77621487 搭建好hadoop集群。 然后,在master节点安装pig。 我们用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的 阅读全文

posted @ 2018-01-28 21:18 张冲andy 阅读(340) 评论(0) 推荐(0) 编辑

hadoop之 hadoop 2.2.X 弃用的配置属性名称及其替换名称对照表
摘要:Deprecated Properties 弃用属性 The following table lists the configuration property names that are deprecated in this version of Hadoop, and their replace 阅读全文

posted @ 2017-10-18 23:15 张冲andy 阅读(730) 评论(0) 推荐(0) 编辑

hadoop YARN配置参数剖析—MapReduce相关参数
摘要:MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。 以下这些 阅读全文

posted @ 2017-10-18 23:06 张冲andy 阅读(1042) 评论(0) 推荐(0) 编辑

hadoop之 YARN配置参数剖析—RM与NM相关参数
摘要:参数均需要在yarn-site.xml中配置: 1. ResourceManager相关配置参数 (1) yarn.resourcemanager.address 参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。 默认值:${yarn 阅读全文

posted @ 2017-10-18 22:33 张冲andy 阅读(651) 评论(0) 推荐(0) 编辑

java之 JVM 内存管理详解
摘要:一、JVM结构 根据《java虚拟机规范》规定,JVM的基本结构一般如下图所示: 从左图可知,JVM主要包括四个部分: 1.类加载器(ClassLoader):在JVM启动时或者在类运行时将需要的class加载到JVM中。(右图表示了从java源文件到JVM的整个过程,可配合理解。 关于类的加载机制 阅读全文

posted @ 2017-10-17 17:52 张冲andy 阅读(432) 评论(0) 推荐(0) 编辑

hadoop之 Hadoop 2.x HA 、Federation
摘要:HDFS2.0之HA 主备NameNode: 1、主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换; 2、主NameNode的信息发生变化后,会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中; 3、所有DataNode同时向两个NameNo 阅读全文

posted @ 2017-10-16 22:28 张冲andy 阅读(594) 评论(0) 推荐(0) 编辑

hadoop之 Hadoop1.x和Hadoop2.x构成对比
摘要:Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker; Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS:HA、NameNode Federation 阅读全文

posted @ 2017-10-16 22:15 张冲andy 阅读(1157) 评论(0) 推荐(0) 编辑

hadoop之 hadoop日志存放路径
摘要:环境:[root@hadp-master hadoop-2.7.4]# hadoop versionHadoop 2.7.4 Hadoop的日志大致可以分为两类: (1)、Hadoop系统服务输出的日志; (2)、Mapreduce程序输出来的日志。这两类的日志存放的路径是不一样的。本文基于Hado 阅读全文

posted @ 2017-10-16 20:35 张冲andy 阅读(2661) 评论(0) 推荐(0) 编辑

hadoop之 hadoop 机架感知
摘要:1.背景 Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保 阅读全文

posted @ 2017-10-13 10:59 张冲andy 阅读(265) 评论(0) 推荐(0) 编辑

Hive之 hive-1.2.1 + hadoop 2.7.4 集群安装
摘要:一、 相关概念 Hive Metastore有三种配置方式,分别是: Embedded Metastore Database (Derby) 内嵌模式Local Metastore Server 本地元存储Remote Metastore Server 远程元存储1.1 Metadata、Metas 阅读全文

posted @ 2017-09-17 20:25 张冲andy 阅读(1867) 评论(0) 推荐(0) 编辑

hadoop之 HDFS-Hadoop存档
摘要:每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问 Hadoop存档文件可以用作MapReduce的输入 使用Hadoop存档工具 Hadoop存档是 阅读全文

posted @ 2017-09-07 17:53 张冲andy 阅读(291) 评论(0) 推荐(0) 编辑

hadoop之 distcp(分布式拷贝)
摘要:概述 distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的 阅读全文

posted @ 2017-09-07 16:51 张冲andy 阅读(31397) 评论(0) 推荐(1) 编辑

hadoop之 解析HDFS的写文件流程
摘要:文件是如何写入HDFS的 ? 下面我们来先看看下面的“写”流程图: 假如我们有一个文件test.txt,想要把它放到Hadoop上,执行如下命令: 引用 # hadoop fs -put /usr/bigdata/dataset/input/20130706/test.txt /opt/bigdat 阅读全文

posted @ 2017-09-07 16:07 张冲andy 阅读(618) 评论(0) 推荐(0) 编辑

导航