2012年9月19日

摘要: Overview of HadoopThis appendix gives a brief overview of Hadoop, focusing on elements that are of interest to Pig users. For a thorough discussion of Hadoop see [Tom WhiteHadoop, The Definitive GuideO'Reilly,http://oreilly.com/catalog/9781449389734/]. Hadoop's two main components are MapRed 阅读全文
posted @ 2012-09-19 10:24 xiaoshier 阅读(316) 评论(0) 推荐(0)
摘要: 宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。Hadoop处理流程中的两个子阶段严重降低了其性能。第一个是map阶段产生的中间结果要写到磁盘上,这样做的主要目的是提高系统的可靠性,但代价是降低了系统的性能,实际上,Hadoop的改进版–MapReduce Onli 阅读全文
posted @ 2012-09-19 10:12 xiaoshier 阅读(133) 评论(0) 推荐(0)
摘要: 转自:http://langyu.iteye.com/blog/992916Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽最大的可能试着把Shuffle说清楚,让每一位想了解它原理的朋友都能有所收获。如果你对这篇文章有任何疑问或建议请留言到后 阅读全文
posted @ 2012-09-19 10:10 xiaoshier 阅读(144) 评论(0) 推荐(0)

2012年9月18日

摘要: 1. 概论在过去的近十年的时间里,面向对象编程大行其道。以至于在大学的教育里,老师也只会教给我们两种编程模型,面向过程和面向对象。孰不知,在面向对象产生之前,在面向对象思想产生之前,函数式编程已经有了数十年的历史。那么,接下来,就让我们回顾这个古老又现代的编程模型,让我们看看究竟是什么魔力将这个概念,将这个古老的概念,在21世纪的今天再次拉入了我们的视野。2. 什么是函数式编程在维基百科中,已经对函数式编程有了很详细的介绍。那我们就来摘取一下Wiki上对Functional Programming的定义:In computer science, functional programming i 阅读全文
posted @ 2012-09-18 05:20 xiaoshier 阅读(153) 评论(0) 推荐(0)
摘要: 诞生50多年之后,函数式编程(functional programming)开始获得越来越多的关注。不仅最古老的函数式语言Lisp重获青春,而且新的函数式语言层出不穷,比如Erlang、clojure、Scala、F#等等。目前最当红的Python、Ruby、Javascript,对函数式编程的支持都很强,就连老牌的面向对象的Java、面向过程的PHP,都忙不迭地加入对匿名函数的支持。越来越多的迹象表明,函数式编程已经不再是学术界的最爱,开始大踏步地在业界投入实用。也许继"面向对象编程"之后,"函数式编程"会成为下一个编程的主流范式(paradigm)。 阅读全文
posted @ 2012-09-18 05:18 xiaoshier 阅读(131) 评论(0) 推荐(1)

2012年8月29日

摘要: Key words: deadline(due date)Specification(assumption): Each batch job is characterized by the work volume of total computing units (e.g., CPU hours) along with a bound on maximum degree of parallelism. Users specify, along with these job characteristics, their desired due date and a value for finis 阅读全文
posted @ 2012-08-29 17:11 xiaoshier 阅读(168) 评论(0) 推荐(0)
摘要: 计算机类国际会议列表:以下按4个研究方向排列1.Databases / Knowledge and Data Management / Data Security / Web / Mining1) SIGMOD: ACM SIGMOD Conf on Management of Data (0.99)2) VLDB: Very Large Data Bases (0.99)3) KDD: Knowledge Discovery and Data Mining (0.97)4) ICDE: Intl Conf on Data Engineering (0.97)5) ICDT: Intl Con 阅读全文
posted @ 2012-08-29 15:34 xiaoshier 阅读(717) 评论(0) 推荐(0)

2012年7月3日

摘要: allocation algorithm: FF, WF, BFscheduling algorithm: RM, EDF两个参数α: maximum reachable utilization factor of any taskβ: maximum number of tasks when αU: mutilprocessor utilization bound, associated with any reasonable allocation algorithm1. 两个参数的函数关系,β <= f(α) && β >= f(α), 所以β = f(α)2. 阅读全文
posted @ 2012-07-03 16:07 xiaoshier 阅读(151) 评论(0) 推荐(0)

2012年6月29日

摘要: Key Tech: allocate a tailored number of map/reduce slots to job, when the job profiling info is availableNew idea:1.Makespan theorem:two bound for the makespan of greedy task assignment lower bound = n.avg/k uppper bound: (n-1).avg/k + max where avg : average duration of n tasks ... 阅读全文
posted @ 2012-06-29 22:50 xiaoshier 阅读(140) 评论(0) 推荐(0)

导航