2013 年 8月随笔档案 - 小湖海

HADOOP优化

摘要：来源http://www.blogjava.net/paulwong/archive/2012/09/24/388458.htmlHADOOP优化网络带宽Hadoop集群的服务器在规划时就在统一的交换机下，这是在官方文档中建议的部署方式。但是我们的这台交换机和其他交换机的互联带宽有限，所以在客户端遇到了HDFS访问速度慢的问题。把操作集群的客户端也联入DataNode的交换机内部，解决了这个问题。系统参数对ulimit -c的修改也是官方文档建议的修改，在集群只有10台服务器时，并没有遇到问题。随着机器增加和任务增加，这个值需要改的更大。配置文件管理这个集群用的是Cloudera发行的版本，配阅读全文

posted @ 2013-08-08 10:40 小湖海阅读(221) 评论(0) 推荐(0)

Hadoop 参数配置优化

摘要：主要参照Hadoop官方给出的配置指南进行的hadoop.tmp.dir默认值： /tmp说明：尽量手动配置这个选项，否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候，如果服务器是多磁盘的，每个磁盘都设置一个临时文件目录，这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。fs.trash.interval默认值： 0说明：这个是开启hdfs文件删除自动转移到垃圾箱的选项，值为垃圾箱文件清除时间。一般开启这个会比较好，以防错误删除重要文件。单位是分钟。fs.inmemory.size.mb默认值：说明： reduce阶段用户合并map输出的内存限制。这阅读全文

posted @ 2013-08-08 10:33 小湖海阅读(518) 评论(0) 推荐(0)

hadoop MapReduce 的DBOutputFormat 使用体会

摘要：试试在DBOutputFormat 的Reducer 阶段有几十万的记录要插入，就会报错内存溢出。可以尝试在mapred-site.xml 里面修改 mapred.child.java.opts -Xmx512m Java opts for the task tracker child processes. The following symbol, if present, will be interpolated: @taskid@ is replaced by current TaskID. Any other occurrences of '@' will go un. 阅读全文

posted @ 2013-08-07 16:17 小湖海阅读(350) 评论(0) 推荐(0)

DBInputFormat 不支持oracle

摘要：今天弄个MapRecord 去数据库取数据发现一直报错，13/08/07 14:54:47 INFO mapred.JobClient: Task Id : attempt_201308070937_0009_m_000000_0, Status : FAILEDjava.io.IOException: ORA-00933: SQL command not properly ended at org.apache.hadoop.mapred.lib.db.DBInputFormat.getRecordReader(DBInputFormat.java:289) at org.apache.h 阅读全文

posted @ 2013-08-07 14:58 小湖海阅读(739) 评论(1) 推荐(0)

奋斗的历程

Java开发者，高可用性、分布式集群、内存数据库实践者,ODE流程引擎研究跟随者，伪.net开发者，至今服务于XXXX云计算平台

08 2013 档案

公告