随笔分类 - hadoop
摘要:stream.map.input.ignoreKey 作用:是否忽略key,只传递值。 默认值:false 我的设置:按需要更改 stream.map.input.field.separator stream.reduce.input.field.separator 作用:分割输入键值的分隔符 默认
阅读全文
摘要:hadoop版本:3.1.1 yarn-site.xml yarn.log-aggregation-enable 作用:是否开启任务日志收集 默认值:false 我的设置:true yarn.log-aggregation.retain-seconds 作用:日志自动清理前保存多长时间,单位秒。 默
阅读全文
摘要:step 1:使用hdfs-site.xml的配置项,排除节点。 step 2:刷新datanode 在Hadoop站点上很快就能看到Decommission正在进行,此时NameNode会检查并将数据复制到其它节点上以恢复副本数(要移除的节点上的数据不会被删除,如果数据比较敏感,要手动删除它们)。
阅读全文
摘要:hadoop版本:3.1.1 core-site.xml dfs.namenode.rpc-address 作用:rpc地址。我在使用distcp时显式使用到了。 默认值:port是8020 我的设置:hostname:8020 io.file.buffer.size 作用:io操作的缓存大小,单位
阅读全文
摘要:环境:mac/linux hadoop版本:3.1.1 安装特性:非HA 准备: 1. jdk8以上 2. ssh 3. 下载hadoop安装包 配置文件,这里都只有简易配置: 1. core-site.xml 2. hdfs-site.xml 3. yarn-site.xml 4. mapred-
阅读全文
摘要:本篇分两部分,第一部分分析使用 java 提交 mapreduce 任务时对 mapper 数量的控制,第二部分分析使用 streaming 形式提交 mapreduce 任务时对 mapper 数量的控制。 环境:hadoop-3.0.2 前言: 熟悉 hadoop mapreduce 的人可能已
阅读全文
摘要:环境:hadoop-3.0.2 + 11 机集群 + RS-6-3-1024K 的EC策略 状况:某天,往 HDFS 上日常 put 业务数据时,发现传输速率严重下降 分析: 检查集群发现,在之前的传输中,发生过个别 datanode 临时不可用的状况。 而由于 hadoop EC 机制,当失效 d
阅读全文
摘要:解决:在 yarn-env.sh 中,指定 YARN_CONF_DIR 为 hadoop 目录的 /etc/hadoop 在yarn-env.sh 中,配置:
阅读全文
摘要:原因:yarn-site.xml 中,yarn.application.classpath 未配置 解决:其中 hadoop 版本对应更改
阅读全文
摘要:原因:yarn-site.xml 中,有关mapreduce日志查看的aggregation未配置启用 解决:在yarn-site.xml 中加入以下配置
阅读全文
摘要:mapreduce maven-assembly-plugin FileSystem
阅读全文
摘要:一、需求背景 基于业务需求,需要修改hadoop源码,将局部源代码修改后,放在自己的工程目录下,由于其相同的路径,想要覆盖掉源码对应部分 二、环境背景 IDEA下,编辑MapReduce任务,打包提交给服务器运行 三、目标 改动部分覆盖掉源码对应部分,生效 四、状况 Hadoop默认自己原生的源码优
阅读全文
摘要:报错: 无明显报错 状况: 所有namenode都是standby,即ZK服务未生效 尝试一:手动强制转化某个namenode为active 操作:在某台namenode上,执行 hdfs haadmin -transitionToActive --forcemanual nn1 (nn1是你的某台
阅读全文
摘要:报错:在journalnode的log中: org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory /mnt/data1/hadoop/dfs/journal/h
阅读全文


浙公网安备 33010602011771号