摘要:
Spark是Berkeley AMP实验室研究的最新成果。它是一个基于内存有容错性能的通用的集群计算框架。它的主要目的是用来处理iterative算法(机器学习)和iteractive查询(数据挖掘的一些工具)。这两种应用场景的共同点是对一个基本不变的数据集会重复访问。而mapreduce对这样的算法的处理性能比较一般。Spark的具体原理不在这里讲述,有兴趣的朋友可以去http://www.spark-project.org/进行进一步的了解。下面主要介绍下安装过程(Linux平台)中需要注意的几个问题:1. Spark安装过程需要用Git。但是在墙内还需要对Git进行代理设置,具体的设置方 阅读全文
posted @ 2011-11-14 23:50
simon0227
阅读(866)
评论(0)
推荐(0)
浙公网安备 33010602011771号