2013年6月22日
摘要: 最近开始看 Hadoop 的一些源码,展开hadoop的源码包,各个组件分得比较清楚,于是开始看一下 IPC 的一些源码。IPC模块,也就是进程间通信模块,如果是在不同的机器上,那就可以理解为 RPC 了,也就是远程调用。事实上, hadoop 中的 IPC 也就是基于 RPC 实现的。使用 sloccount 统计一下 ipc 包中代码的行数,一共是 2884 行。也就是说,IPC 作为hadoop的基础组件,仅仅用了不到3000行的代码,就完成得稳定且富有效率。IPC 中的关键类关系:对用户而言,可以直接使用的就是绿色的类。通过 RPC 这个门面:客户端可以创建相应的 proxy,接着就可 阅读全文
posted @ 2013-06-22 09:13 haosola 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 在数据处理方面,我们发现数据输入速度一般要比的数据处理速度快很多,这种现象在大多数据领域尤为明显。随着数据不断膨胀,相应的响应时间自然要有所增加,数据处理的复杂度也在不断提高。作为一个开发者,我们自然非常关注系统的运行速度问题。在云计算领域,一个小技巧也许能带来系统性能的大幅度提升。对于Hadoop来说,如何提升它的速度呢?来看看下文。Hadoop是用以下的方式来解决速度问题:1 使用分布式文件系统:这使得负载分摊,并壮大系统2 优化写入速度:为了获得更快的写入速度,Hadoop架构是设计成先写入记录,然后在进行处理3 使用批处理(Map/Reduce)来平衡数据传送速度和处理速度。批处理所带 阅读全文
posted @ 2013-06-22 09:10 haosola 阅读(321) 评论(0) 推荐(0) 编辑

toeflacttoeflieltstoefltoeflact