hadoop

hadoop java 开源项目。

  它的设计让我如此喜欢。分布式文件存储系统,mapreduce算法。作为一个.net 的开发工程师。从众多的java开源项目中让我学到了不少好东西。从我正式投身工作以来,我无时无刻不在寻找。

  他的分布式文件系统,用多系统备份和多文件块的方式,既可以保证文件的安全,同时利用带宽和负载均衡的方式,有限利用集群带宽提高整个系统的负载能力。

  他的分布式算法,mapreduce 和自身的分布式文件存储系统一起协作,及有效利用每台服务器的文件块,带宽,同时把大文件分发给不同的服务器,同时运算,利用集群的算法提高大文件的搜索速度。得到的结果也是相当的理想。比起那些花了不少钱搭建出来的大型计算机,他的优势在于可扩充,充分利用带宽,对服务器要求不高,高容错等等。

  有了这样的设计,你就文件存储方式也的有些变动。你多所有文件直接往 他的分布式文件系统里面丢。你不用担心文件的存储方式。也不用担心文件会丢失。更不用担心文件因为数量的增加导致你的速度下降。

  如果你的某台服务器出问题了。需要修理。没有关系,直接取出来。这套系统会自己恢复缺失的备份,使其达到均衡的情况。针对错误的备份接点他会帮你记录下来,避免再次对错误文件块的读取。这些设计更加保证了在普通服务器上的安全性。

  他的运算速度和一些个研究机构研究出来的大型计算机相比毫不逊色。如果你有足够的服务器,你可以将他们都连在一起,你再大的文件做分析,在他内部会把这些内容分发给你的每个节点,充分的利用每个节点的cpu和内存。从而提高运算速度。而他的花销也只在这些服务器的个数和维护上。但是他的扩充能力却远远超过超级计算机。

 

posted @ 2012-08-10 15:35  小小明  阅读(360)  评论(0编辑  收藏  举报