hadoop问题随记

问题:Exception in thread "main" java.lang.RuntimeException: no gather information in this split
分析:直观上看可能是java版本的问题,从导入后数据头文件的大小可以很明显的看出是导入后的数据错误,用之前的数据替换也证明了这一点。可以排除源数据错误的可能性,应该是导入过程中出现问题,但是导入操作是没有问题的,可能是导入工具的依赖库出现了问题

问题:java lang.Throwable:Child Error at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java249)Caused by:java.io.IOException:Task process exit with nonzero status of 134. at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:236)
分析:进入节点userlogs的syslog查看得知集群空间不够,删除集群中部分module-tmp数据,删除各节点module-tmp的内容即可

问题:java.long.Throwable:Child Error
分析:可能是因为hadoop日志太满,日志文件的大小超过linux规定的文件行数

问题:hadoop集群重启后一直处于安全模式
分析:错误的删除本地保存的集群数据或者集群格式化导致,正确的集群格式化步骤是:a,停止集群;b,删除本地数据;c,格式化;d,开启集群。离开安全模式的方法有:1、修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。
 2、hadoop dfsadmin -safemode leave命令强制离开

问题:child error Caused by java.io.IOException
分析:PSTM速度场文件名错误,需要将0.idx修改为2.idx

问题:集群各节点重启之后不能正常使用
分析:/etc/hosts重启后被修改 chattr +i /etc/hosts 

问题:hadoop fs -rmr /* 的过程中104突然死机 集群数据丢失
分析:可能是任一终端出现误操作 也不排除hadoop递归删除的设计缺陷导致删除本地数据,不敢测试这个可能性


问题:copyFromLocal报错,集群之间拷贝报错Hadoop java.net.NoRouteToHostException: No route to host
分析:linux 防火墙问题 sudo /etc/init.d/iptables stop

问题:/etc/hosts配置的没有问题,但是主机名还是local以及其他诡异的名称
分析:hostname 主机名 然后重启集群 

posted @ 2011-12-31 15:14  luwikes  阅读(1115)  评论(0编辑  收藏  举报