2011 年 11月 14 日随笔档案 - simon0227

公告

2011年11月14日

摘要： Spark是Berkeley AMP实验室研究的最新成果。它是一个基于内存有容错性能的通用的集群计算框架。它的主要目的是用来处理iterative算法（机器学习）和iteractive查询（数据挖掘的一些工具）。这两种应用场景的共同点是对一个基本不变的数据集会重复访问。而mapreduce对这样的算法的处理性能比较一般。Spark的具体原理不在这里讲述，有兴趣的朋友可以去http://www.spark-project.org/进行进一步的了解。下面主要介绍下安装过程（Linux平台）中需要注意的几个问题：1. Spark安装过程需要用Git。但是在墙内还需要对Git进行代理设置，具体的设置方阅读全文

posted @ 2011-11-14 23:50 simon0227 阅读(866) 评论(0) 推荐(0)

Data is Everything!

公告