02 2018 档案

spark之 spark 2.2.0 Standalone安装、wordCount演示
摘要:说明:前提安装好hadoop集群,可参考 http://blog.csdn.net/zhang123456456/article/details/77621487 一、 scala 安装 1、下载 scala 安装包 :https://d3kbcqa49mib13.cloudfront.net/sp 阅读全文

posted @ 2018-02-25 11:08 张冲andy 阅读(326) 评论(0) 推荐(0) 编辑

hadoop之 参数调优
摘要:一、 hdfs-site.xml 配置文件 1、 dfs.blocksize 参数:hadoop文件块大小描述:新文件的默认块大小,以字节为单位,默认 134217728 字节。可以使用以下后缀(大小写不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(ex 阅读全文

posted @ 2018-02-24 10:17 张冲andy 阅读(866) 评论(0) 推荐(0) 编辑

hadoop之 Yarn 调度器Scheduler详解
摘要:概述 集群资源是非常有限的,在多用户、多任务环境下,需要有一个协调者,来保证在有限资源或业务约束下有序调度任务,YARN资源调度器就是这个协调者。 YARN调度器有多种实现,自带的调度器为Capacity Scheduler和Fair Scheduler。YARN资源调度器均实现Resource S 阅读全文

posted @ 2018-02-05 15:29 张冲andy 阅读(840) 评论(0) 推荐(0) 编辑

Hadoop之 MapReducer工作过程
摘要:一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。 在shuffle阶段还会发生copy(复制)和sort(排序)。 在MapRed 阅读全文

posted @ 2018-02-05 11:40 张冲andy 阅读(1464) 评论(0) 推荐(0) 编辑

hadoop 配置文件简析
摘要:文件名称 格式 描述hadoop-env.sh bash脚本 记录hadoop要用的环境变量core-site.xml hadoop 配置 xml hadoop core 配置项,例如 HDFS 和 Mapreduce 常用的i/o 设置等hdfs-site.xml hadoop 配置 xml HD 阅读全文

posted @ 2018-02-05 10:23 张冲andy 阅读(169) 评论(0) 推荐(0) 编辑

hadoop之 reduce个数控制
摘要:1、参数变更1.x 参数名 2.x 参数名 mapred.tasktracker.reduce.tasks.maximum mapreduce.tasktracker.reduce.tasks.maximummapred.reduce.tasks mapreduce.job.reduces 2、参数 阅读全文

posted @ 2018-02-03 20:02 张冲andy 阅读(864) 评论(0) 推荐(0) 编辑

hadoop之 map个数控制
摘要:hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来 阅读全文

posted @ 2018-02-03 17:06 张冲andy 阅读(2200) 评论(0) 推荐(0) 编辑

hadoop之 exceeds the limit of concurrent xcievers处理
摘要:dfs.datanode.max.transfer.threads: 默认 4096 < 2.0之前该参数为dfs.datanode.max.xcievers >解释:Specifies the maximum number of threads to use for transferring da 阅读全文

posted @ 2018-02-01 11:36 张冲andy 阅读(721) 评论(0) 推荐(0) 编辑

Hadoop之 Balancer平衡速度
摘要:1. dfs.datanode.max.transfer.threads 修改dfs.datanode.max.transfer.threads=4096 (如果运行HBase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanod 阅读全文

posted @ 2018-02-01 10:37 张冲andy 阅读(1128) 评论(0) 推荐(0) 编辑

导航