会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大魔王阿黎
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
下一页
2019年5月12日
大数据学习之自定义输入 13
摘要: 一:自定义输出 需求:将多个小文件合并为SequenceFile(存储了多个小文件) 存储格式:文件路径+文件的内容 c:/a.txt i am hunter henshuai c:/b.txt i love delireba inputFormat(自定义加上路径) 代码编写: 1:自定义File
阅读全文
posted @ 2019-05-12 00:38 大魔王阿黎
阅读(250)
评论(0)
推荐(0)
2019年5月9日
大数据学习之MapReduce核心(Shuffle洗牌)12
摘要: 先来个原理图压压惊: 温馨提示:如果看不清这个图,可以下载下来,在自己电脑上可以放大。 或者直接放大浏览器。快捷键Ctrl+鼠标滑轮上即可放大。想恢复原来浏览器的默认大小,快键键:Ctrl+数字0 一:概述shuffle Shuffle是mapreduce的核心,链接map与reduce的中间过程。
阅读全文
posted @ 2019-05-09 23:57 大魔王阿黎
阅读(323)
评论(0)
推荐(0)
2019年5月8日
大数据学习之提交job流程,辅助排序11
摘要: 辅助排序 WritableComparator排序(类): 1:原理:(借鉴别人的,个人觉得这个要好理解点) 它是用来给Key分组的 它在ReduceTask中进行,默认的类型是GroupingComparator也可以自定义 WritableComparator为辅助排序手段提供基础(继承它),用
阅读全文
posted @ 2019-05-08 22:48 大魔王阿黎
阅读(289)
评论(0)
推荐(0)
2019年5月7日
大数据学习之提交job流程,排序11
摘要: 1实现接口->WritableCompareable 排序操作在hadoop中属于默认的行为。默认按照字典殊勋排序。 2 排序的分类: 1)部分排序 2)全排序 3)辅助排序 4)二次排序 3 案例: 在流量汇总输出文件里的数据 进行分区,每个分区中的数据进行排序 数据预览,这里只是进行了流量的汇总
阅读全文
posted @ 2019-05-07 22:37 大魔王阿黎
阅读(267)
评论(0)
推荐(0)
2019年5月3日
大数据学习之提交job流程,分区和合并11
摘要: 一:分区 1:自定义一个Partition类(直接使用上次那个流量统计那个代码) 2:在Driver类中添加Partiton的分区个数 3:运行结果 一:合并(mapTask的合并) 原理图: 1:maptask并行度与决定机制 2 maptask工作机制 3:运用场景 1:多个小文件合并优化(减少
阅读全文
posted @ 2019-05-03 23:42 大魔王阿黎
阅读(237)
评论(0)
推荐(0)
2019年5月2日
大数据学习之MapReduce编程案例二流量日志统计 10
摘要: 每一个用户的统计总流量 一:编写代码之前。先了解一下hadoop中的序列化 JAVA 类型 HADOOP 类型 int IntWritable float FloatWritable long LongWritable double DoubleWritable string Text boolea
阅读全文
posted @ 2019-05-02 15:51 大魔王阿黎
阅读(472)
评论(0)
推荐(0)
大数据学习之MapReduce编程案例一单词计数 10
摘要: 一:单词计数 1:单词计数总流程图 2:代码实现 1:Map阶段 2:Reduce阶段 3:Driver阶段 4:打包程序提交到集群上运行 命令 (如果jar包没在当前目录下,记得写好路径): hadoop jar wordcount.jar it.dawn.YARNPra.wc_hdfs.Word
阅读全文
posted @ 2019-05-02 15:32 大魔王阿黎
阅读(483)
评论(0)
推荐(0)
大数据学习之MapReduce基础与Yarn集群安装09
摘要: 1大数据解决的问题? 海量数据的存储:hadoop->分布式文件系统HDFS 海量数据的计算:hadoop->分布式计算框架MapReduce 2什么是MapReduce? 分布式程序的编程框架,java->ssh ssm ,目的:简化开发! 是基于hadoop的数据分析应用的核心框架。 mapre
阅读全文
posted @ 2019-05-02 00:09 大魔王阿黎
阅读(116)
评论(0)
推荐(0)
2019年5月1日
大数据学习之手写MR框架(WordCount程序开发)08
摘要: 简介:这里先手写一个MR程序,大致实现一个单词计数程序。帮助后面学习MapReduce组件。 1:先自定义一个Mapper接口 2:定义一个Context类: 该类主要实现数据的传输,和数据的封装(这里用的一个HashMap进行封装的) 3:实现Mapper类(其实这里就是简化的Map和Reduce
阅读全文
posted @ 2019-05-01 00:18 大魔王阿黎
阅读(583)
评论(0)
推荐(0)
2019年4月29日
大数据学习之HDFS的工作机制07
摘要: 1:namenode+secondaryNameNode工作机制 2:datanode工作机制 3:HDFS中的通信(代理对象RPC) 下面用代码来实现基本的原理 1:服务端代码 2:代理对象接口 3:代理对象的实现 4:客服端
阅读全文
posted @ 2019-04-29 22:23 大魔王阿黎
阅读(122)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告