分布式计算(Hadoop/Spark) - 随笔分类 - 小唯THU

十分钟了解分布式计算:Google Dataflow

摘要：Google声称内部已经抛弃Map-reduce几年了，并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算，并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。阅读全文

posted @ 2014-07-13 12:38 小唯THU 阅读(12083) 评论(4) 推荐(3)

十分钟了解分布式计算:GraphX

摘要：GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化，跟其他分布式图计算框架相比，GraphX最大的贡献是，在Spark之上提供一栈式数据解决方案，可以方便且高效地完成图计算的一整套流水作业。阅读全文

posted @ 2014-07-03 19:20 小唯THU 阅读(15934) 评论(2) 推荐(2)

十分钟了解分布式计算:Spark

摘要：Spark是一个通用的分布式内存计算框架，本文主要研讨Spark的核心数据结构RDD的设计思路，及其在内存上的容错。内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction f... 阅读全文

posted @ 2014-06-13 19:21 小唯THU 阅读(4354) 评论(0) 推荐(0)

十分钟了解分布式计算:Petuum

摘要：Petuum是一个机器学习专用分布式计算框架，本文介绍其架构，并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server，NIPS 2013 重点探讨其核心内容SSP协议。 Paramet 阅读全文

posted @ 2014-06-13 19:01 小唯THU 阅读(14055) 评论(1) 推荐(0)

十分钟了解分布式计算:GraphLab

摘要：GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架，由CMU在2009年开始的一个C++项目，这里的内容是基于论文 Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the 阅读全文

posted @ 2014-06-13 16:03 小唯THU 阅读(5923) 评论(0) 推荐(1)

Scalding初探之三：Hadoop实战

摘要：Java版本如果在Scala工程中混入Java类导致java版本不match，可能会抛错java.lang.UnsupportedClassVersionError: XXXUnsupported major.minor version 51.0在build.sbt中加入javacOptions +... 阅读全文

posted @ 2014-05-15 19:59 小唯THU 阅读(1010) 评论(0) 推荐(0)

摘要：把你从写繁琐的Map-reduce Job中解放出来，写分布式跟写本地程序没两样，Scalding真真代表着先进生产力的方向啊心动不如行动，赶紧装一个吧1 安装JDK2 安装Homebrewruby -e "$(curl -fsSL https://raw.github.com/Homebrew/homebrew/go/install)"brew updatebrew doctor方法1：http... 阅读全文

posted @ 2014-03-24 03:03 小唯THU 阅读(1061) 评论(0) 推荐(0)

Scalding初探之二：动手来做做小实验

摘要：输入文件Scalding既可以处理HDFS上的数据，也可以很方便地在本地运行处理一些test case便于debug，Source有好多种1 TextLine(filename)TextLine(args("input"))或者TextLine("~/data/input.txt")对每行数据，产生... 阅读全文

posted @ 2014-03-23 20:35 小唯THU 阅读(2816) 评论(0) 推荐(0)

Scalding初探之一：基于Scala的Hadoop利器

摘要：把你从写繁琐的Map-reduce Job中解放出来，写分布式跟写本地程序没两样，Scala真真代表着先进生产力的方向啊。好的，今天开始直播基于Scala的Scalding啦，循序渐进地看以下页面：https://github.com/twitter/scalding#scaldinghttps:/... 阅读全文

posted @ 2014-03-04 15:14 小唯THU 阅读(1507) 评论(0) 推荐(0)

Scala初探：新潮的函数式面向对象语言

摘要：Scala的基本概念先讲讲Scala里头几个概念Classes, Traits, Objects and Packages。Class和Java中的很像，只不过Scala中Class不能有static members。还有个叫做case的特殊类。Object跟Class也很像，只不过它只能有一个in... 阅读全文

posted @ 2014-02-21 18:05 小唯THU 阅读(2306) 评论(1) 推荐(0)

Hadoop的那些事儿

摘要：一台单机在存储容量、并发性上毫无疑问都是有很大限制的。为了解决单机无法完成的大存储(>1TB)和大规模计算，分布式系统就应运而生了。MapReduceMapReduce计算框架适用于超大规模的数据（100TB量级）且各数据之间相关性较低的情况。MapReduce的思想是由Google的论文所提及而被广为流传的，简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。MapReduce的编程模型：Map: –> Shuffle: sort by key & group by keyReduce: > -> Map的作用就是把输入数据打散，做简单的处理，输阅读全文

posted @ 2012-04-01 23:02 小唯THU 阅读(1364) 评论(0) 推荐(0)

生活要有诗和远方

随笔分类 - 分布式计算(Hadoop/Spark)