2012 年 8月 9 日随笔档案 - ccmaotang

2012年8月9日

摘要： http://hadoop.apache.org/common/docs/r1.0.3/commands_manual.html 阅读全文

posted @ 2012-08-09 18:12 ccmaotang 阅读(150) 评论(0) 推荐(0)

摘要： link：http://blog.csdn.net/ae86_fc/article/details/5284252最近集群里出现了这样的情况：tasktracker机器，由于运行了过多的task (map/reduce)，导致该机器上的内存严重 overload，产生大量swap，最终导致任何命令都无法得到相应，机器挂掉。连ssh都无法得到相应，只能通知机房的同事重启机器。究其原因，其实很简单:就是因为集群中机器配置的可并行的map和reduce数加起来，超过了机器的cpu数，导致在极限的情况下，会有 6个map，6个reduce的task java 进程运行在这台slave上有些job 阅读全文

posted @ 2012-08-09 18:04 ccmaotang 阅读(1453) 评论(0) 推荐(0)

hive 摘记

摘要：由於 Hive 經驗不多，大致上只能建議您往幾個方向去查：1. 使用 EXPLAIN 指令，查看Hive 對 HQL 的解析情況代碼:explain extended <HQL 語法>2. 嘗試使用 SUBQUERY 搭配 EXPLAIN 看解析出來的 MapReduce 邏輯有無不同SELECT COUNT(A.name) FROM ( SELECT A.name FROM A JOIN B ON (A.name = B.name) )3. 採用不同的 SerDe （SequenceFile , RCFile , .....) ：也許會因為資料特性不同而有加速效果。阅读全文

posted @ 2012-08-09 17:43 ccmaotang 阅读(225) 评论(0) 推荐(0)

虚怀若谷

梳理，归纳，总结。建立一套适合自己的知识体系结构

公告