随笔分类 -  分布式计算(Hadoop/Spark)

十分钟了解分布式计算:Google Dataflow
摘要:Google声称内部已经抛弃Map-reduce几年了,并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算,并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。 阅读全文

posted @ 2014-07-13 12:38 小唯THU 阅读(11974) 评论(4) 推荐(3)

十分钟了解分布式计算:GraphX
摘要:GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。 阅读全文

posted @ 2014-07-03 19:20 小唯THU 阅读(15878) 评论(2) 推荐(2)

十分钟了解分布式计算:Spark
摘要:Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction f... 阅读全文

posted @ 2014-06-13 19:21 小唯THU 阅读(4315) 评论(0) 推荐(0)

十分钟了解分布式计算:Petuum
摘要:Petuum是一个机器学习专用分布式计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。 Paramet 阅读全文

posted @ 2014-06-13 19:01 小唯THU 阅读(14005) 评论(1) 推荐(0)

十分钟了解分布式计算:GraphLab
摘要:GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架,由CMU在2009年开始的一个C++项目,这里的内容是基于论文 Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the 阅读全文

posted @ 2014-06-13 16:03 小唯THU 阅读(5860) 评论(0) 推荐(1)

Scalding初探之三:Hadoop实战
摘要:Java版本如果在Scala工程中混入Java类导致java版本不match,可能会抛错java.lang.UnsupportedClassVersionError: XXXUnsupported major.minor version 51.0在build.sbt中加入javacOptions +... 阅读全文

posted @ 2014-05-15 19:59 小唯THU 阅读(999) 评论(0) 推荐(0)

Scalding初探之番外篇:Mac OS下的安装
摘要:把你从写繁琐的Map-reduce Job中解放出来,写分布式跟写本地程序没两样,Scalding真真代表着先进生产力的方向啊心动不如行动,赶紧装一个吧1 安装JDK2 安装Homebrewruby -e "$(curl -fsSL https://raw.github.com/Homebrew/homebrew/go/install)"brew updatebrew doctor方法1:http... 阅读全文

posted @ 2014-03-24 03:03 小唯THU 阅读(1046) 评论(0) 推荐(0)

Scalding初探之二:动手来做做小实验
摘要:输入文件Scalding既可以处理HDFS上的数据,也可以很方便地在本地运行处理一些test case便于debug,Source有好多种1 TextLine(filename)TextLine(args("input"))或者TextLine("~/data/input.txt")对每行数据,产生... 阅读全文

posted @ 2014-03-23 20:35 小唯THU 阅读(2804) 评论(0) 推荐(0)

Scalding初探之一:基于Scala的Hadoop利器
摘要:把你从写繁琐的Map-reduce Job中解放出来,写分布式跟写本地程序没两样,Scala真真代表着先进生产力的方向啊。好的,今天开始直播基于Scala的Scalding啦,循序渐进地看以下页面:https://github.com/twitter/scalding#scaldinghttps:/... 阅读全文

posted @ 2014-03-04 15:14 小唯THU 阅读(1488) 评论(0) 推荐(0)

Scala初探:新潮的函数式面向对象语言
摘要:Scala的基本概念先讲讲Scala里头几个概念Classes, Traits, Objects and Packages。Class和Java中的很像,只不过Scala中Class不能有static members。还有个叫做case的特殊类。Object跟Class也很像,只不过它只能有一个in... 阅读全文

posted @ 2014-02-21 18:05 小唯THU 阅读(2294) 评论(1) 推荐(0)

Hadoop的那些事儿
摘要:一台单机在存储容量、并发性上毫无疑问都是有很大限制的。为了解决单机无法完成的大存储(>1TB)和大规模计算,分布式系统就应运而生了。MapReduceMapReduce计算框架适用于超大规模的数据(100TB量级)且各数据之间相关性较低的情况。MapReduce的思想是由Google的论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。MapReduce的编程模型:Map: –> Shuffle: sort by key & group by keyReduce: > -> Map的作用就是把输入数据打散,做简单的处理,输 阅读全文

posted @ 2012-04-01 23:02 小唯THU 阅读(1352) 评论(0) 推荐(0)

导航