摘要:
前面,讲到了hadoop的序列化机制,mr程序开发,自定义排序,自定义分组。 有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没 缓存,分组,排序,转发,这些都是mr的shuffle。 Soga 现在。来观察map阶段有几个yarnchild,reduce阶段有几个yarnc 阅读全文
posted @ 2016-09-22 16:39
大数据和AI躺过的坑
阅读(467)
评论(0)
推荐(0)
摘要:
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排 下面,开始weekend110的hadoop的自定义排序实现 将FlowSortMapper、FlowSortR 阅读全文
posted @ 2016-09-22 16:01
大数据和AI躺过的坑
阅读(802)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! 以上是,weekend110的yarn的job提交流程源码分析的复习总结 下面呢,来讲weekend110的hadoop中的序列化机制 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.a 阅读全文
posted @ 2016-09-22 15:00
大数据和AI躺过的坑
阅读(530)
评论(0)
推荐(0)
摘要:
(2015年1月18日) 课程目录 01-复习 02-hadoop中的序列化机制 03-流量求和mr程序开发 04-hadoop的自定义排序实现 05-mr程序中自定义分组的实现 06-shuffle机制 07-mr程序的组件全貌 08-textinputformat对切片规划的源码分析 09-倒排 阅读全文
posted @ 2016-09-22 14:51
大数据和AI躺过的坑
阅读(250)
评论(0)
推荐(0)
摘要:
Mr程序写完之后,提交给yarn,yarn会产生一个MRAppMaster,想说的是,yarn变得很 通用,yarn集群上,不光可以跑mr程序,还可以跑各种运算模型。 海量批处理,mapreduce 海量实时处理,spark 海量流式处理,storm Mapreduce实现,MRAppMaster 阅读全文
posted @ 2016-09-22 12:00
大数据和AI躺过的坑
阅读(527)
评论(0)
推荐(0)
摘要:
途径1: 途径2: 途径3: 成功! 由此,可以好好比较下,途径1和途径2 和途径3 的区别。 现在,来玩玩weekend110的joba提交的逻辑之源码跟踪 原来如此,weekend110的job提交的逻辑源码,停在这了 hello world hello tom helllo jim jim i 阅读全文
posted @ 2016-09-22 11:35
大数据和AI躺过的坑
阅读(779)
评论(0)
推荐(0)
摘要:
把我们的简单运算逻辑,很方便地扩展到海量数据的场景下,分布式运算。 Map作一些,数据的局部处理和打散工作。 Reduce作一些,数据的汇总工作。 这是之前的,weekend110的hdfs输入流之源码分析。现在,全部关闭断点。 //4个泛型中,前两个是指定mapper输入数据的类型,KEYIN是输 阅读全文
posted @ 2016-09-22 09:59
大数据和AI躺过的坑
阅读(782)
评论(0)
推荐(0)
摘要:
3种形式的元数据,fsimage是在磁盘上,meta.data是在内存上, 我们继续,前面呢,断点是打在这一行代码处, FileSystem fs = FileSystem.get(conf); weekend110的hdfs下载数据源码跟踪铺垫 + hdfs下载数据源码分析-getFileSyst 阅读全文
posted @ 2016-09-22 09:04
大数据和AI躺过的坑
阅读(512)
评论(0)
推荐(0)
摘要:
(2015年1月17日) 课程目录 01-hdfs源码跟踪之打开输入流 02-hdfs源码跟踪之打开输入流总结 03-mapreduce介绍及wordcount 04-wordcount的编写和提交集群运行 05-mr程序的本地运行模式 06-job提交的逻辑及YARN框架的技术机制 07-MR程序 阅读全文
posted @ 2016-09-22 08:38
大数据和AI躺过的坑
阅读(294)
评论(0)
推荐(0)

浙公网安备 33010602011771号