08 2013 档案

摘要:来源http://www.blogjava.net/paulwong/archive/2012/09/24/388458.htmlHADOOP优化网络带宽Hadoop集群的服务器在规划时就在统一的交换机下,这是在官方文档中建议的部署方式。但是我们的这台交换机和其他交换机的互联带宽有限,所以在客户端遇到了HDFS访问速度慢的问题。把操作集群的客户端也联入DataNode的交换机内部,解决了这个问题。系统参数对ulimit -c的修改也是官方文档建议的修改,在集群只有10台服务器时,并没有遇到问题。随着机器增加和任务增加,这个值需要改的更大。配置文件管理这个集群用的是Cloudera发行的版本,配 阅读全文
posted @ 2013-08-08 10:40 小湖海 阅读(221) 评论(0) 推荐(0)
摘要:主要参照Hadoop官方给出的配置指南进行的hadoop.tmp.dir默认值: /tmp说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。fs.trash.interval默认值: 0说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。fs.inmemory.size.mb默认值:说明: reduce阶段用户合并map输出的内存限制。这 阅读全文
posted @ 2013-08-08 10:33 小湖海 阅读(518) 评论(0) 推荐(0)
摘要:试试在DBOutputFormat 的Reducer 阶段有几十万的记录要插入,就会报错内存溢出。可以尝试 在mapred-site.xml 里面修改 mapred.child.java.opts -Xmx512m Java opts for the task tracker child processes. The following symbol, if present, will be interpolated: @taskid@ is replaced by current TaskID. Any other occurrences of '@' will go un. 阅读全文
posted @ 2013-08-07 16:17 小湖海 阅读(350) 评论(0) 推荐(0)
摘要:今天弄个MapRecord 去数据库取数据 发现一直报错,13/08/07 14:54:47 INFO mapred.JobClient: Task Id : attempt_201308070937_0009_m_000000_0, Status : FAILEDjava.io.IOException: ORA-00933: SQL command not properly ended at org.apache.hadoop.mapred.lib.db.DBInputFormat.getRecordReader(DBInputFormat.java:289) at org.apache.h 阅读全文
posted @ 2013-08-07 14:58 小湖海 阅读(739) 评论(1) 推荐(0)