Hadoop运维 - 随笔分类 - 王晓伟

Hadoop 服务SYS CPU过高导致宕机问题

摘要：最近某hadoop集群多次出现机器宕机，现象为瞬间机器的sys cpu增长至100%，机器无法登录。只能硬件重启，ganglia cpu信息如下：首先怀疑有用户启动了比较奇葩的job，导致不合理的系统调用出现的问题。随后加了ps及pidstat信息收集job信息（公共集群蛋疼的地方），然后出现问题的时候，各类脚本已经无法工作，一直没有抓到现场。终于在某一次看到一台机器sys 瞬间增长，且机器还能登录。立马查看现场，发现竟然元凶是datanode：datanode一个进程占用cpu 1600%，sys cpu占用超过40%Datanode的进程栈信息，大量dataxceiver线程block，. 阅读全文

posted @ 2013-12-30 19:44 王晓伟阅读(3246) 评论(1) 推荐(0)

RHEL6 kernel bug在hadoop上的测试

摘要：最近给hadoop集群升级了RHEL6，发现性能比之前的差了不少。发现淘宝内核组发现并解决了这个问题原文链接：http://blog.donghao.org/2013/03/20/hadoop%E9%9B%86%E7%BE%A4%E4%B8%8A%E6%8D%89%E5%88%B0kernel-bug%E4%B8%80%E4%B8%AA/于是在测试机器上面跑了一下对比，收货很大：环境介绍：测试机型：IBM X3630 M348G 12X2TSAS集群：master 1台，salve3台测试方式：官方terasort测试数据：100G （10亿条，每条100字节）Map个数：736Reduce个阅读全文

posted @ 2013-10-17 19:36 王晓伟阅读(397) 评论(0) 推荐(0)

Mapreduce报错：Split metadata size exceeded 10000000

摘要：报错信息：Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000. Aborting job job_201205162059_1073852 at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) at org.apache.hadoop.mapred.JobInProgress.creat... 阅读全文

posted @ 2013-09-27 18:57 王晓伟阅读(3548) 评论(0) 推荐(1)

HDFS超租约异常总结（org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException）

摘要：异常信息：13/09/11 12:12:06 INFO hdfs.DFSClient: SMALL_BUFFER_SIZE is 512org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/put_dir/20130911-121205-858/ie_ping1_access_log.2013091111.lzo File does not exist. Holder DFSClient_-2082829022 d 阅读全文

posted @ 2013-09-12 17:53 王晓伟阅读(10261) 评论(0) 推荐(0)

通过Hadoop jmx收集Namenode，Jobtracker相关信息

摘要：经常会有一些Hadoop监控的需求，例如datanode节点掉线，Tasktracker blacklist的数量，以及Namenode，Jobtracker的内存GC信息等。之前采用Hadoop API获取这类信息插入Mysql，再用php脚本做逻辑判断并发送报警。这种做法代价比较高，需要在每个集群部署一个java用以收集信息。后来发现hadoop提供了一个JMX的json数据接口，可以比较方便的得到这些信息。只需在页面上便可访问到，例如namenode只需要将http://namenode:50070/dfshealth.jsp换成http://namenode:50070/jmx即... 阅读全文

posted @ 2013-09-11 17:38 王晓伟阅读(3596) 评论(0) 推荐(0)

Hadoop ”No room for reduce task“问题处理

摘要：早上发现一个任务有20个reduce，但是只有四个正常完成，剩余16个等待了8个小时才分配执行（集群槽位资源充足）解决方法：查看了集群的log，发现有这种warn：2013-09-11 01:56:38,620 WARN org.apache.hadoop.mapred.JobInProgress: No room for reduce task. Node tracker_slave028.hadoop.sjs.org:localhost/127.0.0.1:54676 has 91520086016 bytes free; but we expect reduce input to tak 阅读全文

posted @ 2013-09-11 17:12 王晓伟阅读(326) 评论(0) 推荐(0)

王晓伟

他山之石，可以攻玉

随笔分类 - Hadoop运维