ZFYCH_Love

Simply but Powerful

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
上一页 1 2 3 4 5 6 7 ··· 12 下一页

2016年6月24日

摘要: 前言: 学了几天storm的基础,发现如果有hadoop基础,再理解起概念来,容易的多。不过,涉及到一些独有的东西,如调度,如并发度,还是很麻烦。那么,从这一篇开始,力争清晰的梳理这些知识。 在正式学习并发之前,有必要先明确几个基本概念的定义,以及具体作用。 一、基础概念 1.1 Topology 阅读全文
posted @ 2016-06-24 15:09 xiaoyang_ 阅读(621) 评论(0) 推荐(1) 编辑

2016年6月16日

摘要: 上一篇介绍了一个job的提交过程。期间多次提到通信协议。那么协议是什么? 协议其实就是通信的双方所遵守的一套规范,这套规范规定了通信时传输的数据的固定的格式。 4.1 RPC协议:在hadoop中,我们采用的是RPC协议。 该协议主要包含四个部分: 序列化层:协议中的参数采用Protocol Buf 阅读全文
posted @ 2016-06-16 16:36 xiaoyang_ 阅读(653) 评论(0) 推荐(0) 编辑

摘要: 在MRv1中,各个模块间驱动运行的方式是函数调用的方式。这是同步的过程,上一模块调用下一模块函数后,等待其执行。效率不高。 在MRv2中做了改进,yarn基于事件驱动的并发模型。在详细介绍前,先看下图: 处理请求会作为事件进入系统,有中央异步调度器【AsyncDispatcher】传递给对应的事件调 阅读全文
posted @ 2016-06-16 16:36 xiaoyang_ 阅读(463) 评论(0) 推荐(0) 编辑

2016年6月1日

摘要: 我们会定义Job,我们会定义map和reduce程序。那么,这个Job到底是怎么提交的?提交到哪去了?它到底和集群怎么进行交互的呢? 这篇文章将从头讲起。 开发hadoop的程序时,一共有三大块,也就是Driver、map、reduce,在Driver中,我们要定义Configuration,定义J 阅读全文
posted @ 2016-06-01 19:17 xiaoyang_ 阅读(6243) 评论(0) 推荐(0) 编辑

摘要: 在弄清楚yarn是什么之前,先来看一下MRv1。 它的由编程模型+数据处理引擎(map/reduceTask)+运行时环境组成(JobTracker/TaskTracker)。其中JobTracker存在很多问题,如下: 1、JobTracker本身承担了调度和计算的任务,太累了 2、JobTrac 阅读全文
posted @ 2016-06-01 17:07 xiaoyang_ 阅读(504) 评论(0) 推荐(0) 编辑

2016年5月31日

摘要: 从今天开始新的系列:Hadoop总结篇 之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性。所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西。 本系列的主要参考书目是《Hadoop技术内幕:深入解析Yarn架构设计与实现原理》 比如作业从提交到执行到 阅读全文
posted @ 2016-05-31 15:07 xiaoyang_ 阅读(885) 评论(0) 推荐(1) 编辑

2016年5月22日

摘要: 所谓推测式执行,就是计算框架判断,如果有一个task执行的过慢,则会启动备份任务,最终使用原任务+备份任务中执行较快task的结果。产生原因一般是程序bug、负载倾斜。 那么这个较慢,是怎么判断的呢? 有如下具体的算法: 比较两个时间。一是根据推测式算法计算出来的task最终完成时刻,也就是按着任务 阅读全文
posted @ 2016-05-22 22:32 xiaoyang_ 阅读(1393) 评论(0) 推荐(0) 编辑

2016年5月21日

摘要: yarn.nodemanager.aux-services mapreduce.shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler 为了能够运行MapReduce程序,需要让各个NodeM... 阅读全文
posted @ 2016-05-21 23:40 xiaoyang_ 阅读(701) 评论(0) 推荐(0) 编辑

摘要: 这篇文章来自于:董的博客,记录备查 内存管理,主要是管理nodemanager上的物理内存和虚拟内存。 YARN允许用户配置每个节点上可用的物理内存资源,注意,这里是“可用的”,因为一个节点上的内存会被若干个服务共享,比如一部分给YARN,一部分给HDFS,一部分给HBase等,YARN配置的只是自 阅读全文
posted @ 2016-05-21 19:08 xiaoyang_ 阅读(302) 评论(0) 推荐(0) 编辑

2016年5月17日

摘要: 1、新版本:mapreduce包 2、job设置: a.JobName便于调试 b.FileInputFormat.addInputPath 添加输入路径,可添加多个;可以是具体文件,还可以是文件夹。 FileOutputFormat.setOutputPath 设置输出路径,只能设置一个,是文件夹 阅读全文
posted @ 2016-05-17 20:21 xiaoyang_ 阅读(165) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 12 下一页