2013 年 6月 22 日随笔档案 - haosola

2013年6月22日

摘要：最近开始看 Hadoop 的一些源码，展开hadoop的源码包，各个组件分得比较清楚，于是开始看一下 IPC 的一些源码。IPC模块，也就是进程间通信模块，如果是在不同的机器上，那就可以理解为 RPC 了，也就是远程调用。事实上， hadoop 中的 IPC 也就是基于 RPC 实现的。使用 sloccount 统计一下 ipc 包中代码的行数，一共是 2884 行。也就是说，IPC 作为hadoop的基础组件，仅仅用了不到3000行的代码，就完成得稳定且富有效率。IPC 中的关键类关系：对用户而言，可以直接使用的就是绿色的类。通过 RPC 这个门面：客户端可以创建相应的 proxy，接着就可阅读全文

posted @ 2013-06-22 09:13 haosola 阅读(289) 评论(0) 推荐(0)

如何让Hadoop运行得更快一些

摘要：在数据处理方面，我们发现数据输入速度一般要比的数据处理速度快很多，这种现象在大多数据领域尤为明显。随着数据不断膨胀，相应的响应时间自然要有所增加，数据处理的复杂度也在不断提高。作为一个开发者，我们自然非常关注系统的运行速度问题。在云计算领域，一个小技巧也许能带来系统性能的大幅度提升。对于Hadoop来说，如何提升它的速度呢？来看看下文。Hadoop是用以下的方式来解决速度问题：1 使用分布式文件系统：这使得负载分摊，并壮大系统2 优化写入速度：为了获得更快的写入速度，Hadoop架构是设计成先写入记录，然后在进行处理3 使用批处理(Map/Reduce)来平衡数据传送速度和处理速度。批处理所带阅读全文

posted @ 2013-06-22 09:10 haosola 阅读(340) 评论(0) 推荐(0)