摘要: http://hadoop.apache.org/common/docs/r1.0.3/commands_manual.html 阅读全文
posted @ 2012-08-09 18:12 ccmaotang 阅读(147) 评论(0) 推荐(0)
摘要: link:http://blog.csdn.net/ae86_fc/article/details/5284252最近集群里出现了这样的情况:tasktracker机器,由于运行 了过多的task (map/reduce),导致该机器上的内存 严重 overload,产生大量swap,最终导致任何命令 都无法得到相应,机器挂掉。连ssh都无法得到相应,只能通知机房的同事重启机器。究其原因,其实很简单:就是因为集群中机器配置的可并行的map和reduce数加起来,超过了机器的cpu数,导致在极限的情况下,会有 6个map,6个reduce的task java 进程运行在这台slave上有些job 阅读全文
posted @ 2012-08-09 18:04 ccmaotang 阅读(1453) 评论(0) 推荐(0)
摘要: 由於 Hive 經驗不多,大致上只能建議您往幾個方向去查:1. 使用 EXPLAIN 指令,查看Hive 對 HQL 的解析情況代碼:explain extended <HQL 語法>2. 嘗試使用 SUBQUERY 搭配 EXPLAIN 看解析出來的 MapReduce 邏輯有無不同SELECT COUNT(A.name) FROM ( SELECT A.name FROM A JOIN B ON (A.name = B.name) )3. 採用不同的 SerDe (SequenceFile , RCFile , .....) :也許會因為資料特性不同而有加速效果。 阅读全文
posted @ 2012-08-09 17:43 ccmaotang 阅读(224) 评论(0) 推荐(0)