08 2012 档案

摘要:Spark是Berkeley大学AMP(stands forAlgorithms, Machines, and People)实验室开发的一个项目。它是一个基于RDD(Resilient Distributed Datasets)模型,能够支持计算MapReduce模式的作业,主要用于迭代计算和交互式数据计算等中间结果可重用的分布式计算框架。Spark 将数据缓存在内存中从而减少数据的访问延迟。1. RDDRDD,即可伸缩的分布式数据集合,管理数据缓存和数据重用,采用分析日志方式支持数据容错,提供了粗粒度的事务处理接口(map,filter,join)。RDD 对数据记录进行分区存储,本身是只 阅读全文
posted @ 2012-08-27 11:04 asdffdas 阅读(770) 评论(0) 推荐(0)
摘要:GraphChi 由卡内基梅隆大学的Aapo Kyrola 博士生开发,是GraphLab项目的一个分支。该框架能够在单机上完成大数据的图计算。GraphChi借鉴 GraphLab 和 Pregel 两个项目,采用基于以顶点为中心的计算模型。GraphChi 的核心是名为Parallel Sliding Windows (并行式滑动窗口,简称PSW)的模型,能够异步处理存储在硬盘上的可变图数据。1. PSW模型1PSW模型算法分为三个阶段:从硬盘载入数据、更新顶点和边、将更新写入到磁盘。作者对在介绍PSW时,以边权重可变的图作为示例,给定有向图G=(V, E)载入数据阶段:顶点集V被分为P个 阅读全文
posted @ 2012-08-26 18:25 asdffdas 阅读(904) 评论(0) 推荐(0)