2014 年 9月随笔档案 - clamaa

hadoop中的一次集群任务执行超时问题查找过程

摘要：问题背景本次进行一个项目的重构，在某些活动数据量比较大的情况下，会偶尔出现1200s超时的情况，如下： AttemptID:attempt_1410771599055_11709_m_000033_0 Timed out after 1200 secs 而hadoop会不断启动备份任... 阅读全文

posted @ 2014-09-28 11:47 clamaa 阅读(1060) 评论(0) 推荐(0)

hadoop Partiton中的字符串Hash函数改进

摘要：最近的MapReduce端的Partition根据map生成的Key来进行哈希，导致哈希出来的Reduce端处理任务数量非常不均匀，有些Reduce端处理的数据量非常小（几分钟就执行完成，而最后的part-结果显示其输出文件为0，没有处理任何任务），而有些Reduce端需要执行大量的任务（... 阅读全文

posted @ 2014-09-26 22:25 clamaa 阅读(466) 评论(0) 推荐(0)

设计模式－访问者(Visitor)模式

摘要：访问者模式是对象的行为模式。访问者模式的目的是封装施加在某种数据结构元素上的操作。一旦一些操作需要修改，接受这个操作的数据结构可以保持不变。个人觉得访问者模式相对其他的设计模式来说稍微复杂，难理解一点，要理解这个模式首先需要了解“单分派与多分派”。单分派与多分派根据对象的类型对执行方法进... 阅读全文

posted @ 2014-09-21 20:34 clamaa 阅读(197) 评论(0) 推荐(0)

Hadoop Map/Reduce的工作流

摘要：问题描述我们的数据分析平台是单一的Map/Reduce过程，由于半年来不断地增加需求，导致了问题已经不是那么地简单，特别是在Reduce阶段，一些大对象会常驻内存。因此越来越顶不住压力了，当前内存问题已经是最大的问题，每个Map占用5G，每个Reduce占用9G！直接导致当数据分析平台运行时... 阅读全文

posted @ 2014-09-18 22:07 clamaa 阅读(370) 评论(0) 推荐(0)

JNI的一个简单实例

摘要：本例子使用的操作系统MacOS, 64位JVM。 JNI编写的几个步骤如下：编写Java代码，并注明native方法： public class HelloJni { public native void displayHelloJni(); public static voi... 阅读全文

posted @ 2014-09-16 21:43 clamaa 阅读(251) 评论(0) 推荐(0)

准确计算Java中对象的大小

摘要：由于在项目中需要大致计算一下对象的内存占用率（Hadoop中的Reduce端内存占用居高不下却又无法解释），因此深入学习了一下如何准确计算对象的大小。使用system.gc()和java.lang.Runtime类中的freeMemory(),totalMemory(),maxMemory... 阅读全文

posted @ 2014-09-05 22:56 clamaa 阅读(1089) 评论(0) 推荐(0)

combiner中使用状态模式

摘要：mapreduce中的combine过程hadoop的map过程执行完成后，每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，减少在map和reduce节点之间的数据传输量，提高网络I/O性能。 Combiner最基本的就是实现本地key的聚合... 阅读全文

posted @ 2014-09-02 13:38 clamaa 阅读(501) 评论(1) 推荐(0)

Maven assembly插件进行自定义构建

摘要：众所周知，Maven是一个约定优于配置的java构建工具，通常我们只需要定义非常少的内容，就可以根据package标签属性来构建生成的jar, war包的相关内容。如果想要对maven中依赖的内容一起打包，就需要使用maven-assembly-plugin来实现，对于该插件，其基本的配置... 阅读全文

posted @ 2014-09-01 11:01 clamaa 阅读(981) 评论(0) 推荐(0)

clamaa

09 2014 档案

公告