摘要:Google声称内部已经抛弃Map-reduce几年了,并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算,并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。
阅读全文
摘要:GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
阅读全文
摘要:Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction f...
阅读全文
摘要:Petuum是一个机器学习专用分布式计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。 Paramet
阅读全文
摘要:GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架,由CMU在2009年开始的一个C++项目,这里的内容是基于论文 Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the
阅读全文
摘要:Java版本如果在Scala工程中混入Java类导致java版本不match,可能会抛错java.lang.UnsupportedClassVersionError: XXXUnsupported major.minor version 51.0在build.sbt中加入javacOptions +...
阅读全文
摘要:把你从写繁琐的Map-reduce Job中解放出来,写分布式跟写本地程序没两样,Scalding真真代表着先进生产力的方向啊心动不如行动,赶紧装一个吧1 安装JDK2 安装Homebrewruby -e "$(curl -fsSL https://raw.github.com/Homebrew/homebrew/go/install)"brew updatebrew doctor方法1:http...
阅读全文
摘要:输入文件Scalding既可以处理HDFS上的数据,也可以很方便地在本地运行处理一些test case便于debug,Source有好多种1 TextLine(filename)TextLine(args("input"))或者TextLine("~/data/input.txt")对每行数据,产生...
阅读全文
摘要:把你从写繁琐的Map-reduce Job中解放出来,写分布式跟写本地程序没两样,Scala真真代表着先进生产力的方向啊。好的,今天开始直播基于Scala的Scalding啦,循序渐进地看以下页面:https://github.com/twitter/scalding#scaldinghttps:/...
阅读全文
摘要:Scala的基本概念先讲讲Scala里头几个概念Classes, Traits, Objects and Packages。Class和Java中的很像,只不过Scala中Class不能有static members。还有个叫做case的特殊类。Object跟Class也很像,只不过它只能有一个in...
阅读全文
摘要:一台单机在存储容量、并发性上毫无疑问都是有很大限制的。为了解决单机无法完成的大存储(>1TB)和大规模计算,分布式系统就应运而生了。MapReduceMapReduce计算框架适用于超大规模的数据(100TB量级)且各数据之间相关性较低的情况。MapReduce的思想是由Google的论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。MapReduce的编程模型:Map: –> Shuffle: sort by key & group by keyReduce: > -> Map的作用就是把输入数据打散,做简单的处理,输
阅读全文