随笔分类 -  Hadoop

Hadoop总结
摘要:一、linux简介 01.Linux简介 linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹 在1991年10月5日首次发布。,在加上用户空间的应用程序之后,成为Linux操作系统。 应用:长时间的运行编写的程序代码,可以安装在各种计算机硬件设备中,如: 手机、平板电脑、路由器等 安卓最底层运行在linu... 阅读全文
posted @ 2018-11-04 23:01 阅读(662) 评论(0) 推荐(0)
Hadoop优化
摘要:1、mr程序的效率瓶颈 功能:分布式离线计算 计算机性能:CPU、内存、磁盘、网络 I/O操作优化 (1)数据倾斜(代码优化) (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多(combineTextInputFomrat小文件合并) (5)不可分块的超大文件(不断的溢写)... 阅读全文
posted @ 2018-11-04 22:59 阅读(310) 评论(0) 推荐(0)
Hadoop压缩
摘要:一、Hadoop压缩简介 二、Hadoop压缩使用方式 1.Mapper类 2.Reducer类 3.Driver类 4.输入文件words.txt 5.输出文件的名字分别如下 三、自定义压缩工具 1.自定义压缩工具类 2.输入文件名 3.输出文件名 阅读全文
posted @ 2018-11-04 18:21 阅读(457) 评论(0) 推荐(0)
mapjoin与reducejoin
摘要:一、mapjoin 1.Mapper类 2.Driver类 3.输入文件 4.输出文件part-m-00000 二、reducejoin 1.Mapper类 2.Reducer类 3.封装类 4.Driver类 5.输入文件 6.输出文件part-r-00000 阅读全文
posted @ 2018-11-04 17:59 阅读(263) 评论(0) 推荐(0)
MapReduce自定义InputFormat和OutputFormat
摘要:一、自定义InputFormat 1.Mapper类 2.Reducer类 3.自定义InputFormat类 4.自定义RecordReader类 5.Driver类 6.输入小文件 7.输出文件part-r-00000 二、自定义OutputFormat 需求:过滤日志文件 把包含main的放在 阅读全文
posted @ 2018-11-04 15:57 阅读(1029) 评论(0) 推荐(0)
MapReduce辅助排序
摘要:1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.自定义排序分组类 6.Driver类 7.mr输入文件order.java 8.输出文件 阅读全文
posted @ 2018-11-04 15:13 阅读(269) 评论(0) 推荐(0)
MapReduce分区和排序
摘要:一、排序 二、分区和排序实例 1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.Driver类 6.输入的文件part-r-00000 7.如果第5步Driver类中的红色部分去掉,则输出全局排序后的文件part-r-00000 8.如果第5步Driver类中的红色部分不去 阅读全文
posted @ 2018-10-26 00:15 阅读(1563) 评论(0) 推荐(0)
MapReduce小文件优化与分区
摘要:一、小文件优化 1.Mapper类 2.Reducer类 3.Driver类 二、分区 1.Mapper类 2.Reducer类 3.封装类 4.分区类 5.Driver类 6.输入的文件HTTP_20180313143750.dat 7.输出的文件 阅读全文
posted @ 2018-10-25 23:38 阅读(629) 评论(0) 推荐(0)
MapReduce分析流量汇总
摘要:一、MapReduce编程规范 二、MapReduce分析流量汇总 1.Mapper类 2.Reducer类 3.Driver类 4.封装类,数据的传输 5.输入的文件HTTP_20180313143750.dat 6.输出的文件part-r-00000 阅读全文
posted @ 2018-10-25 23:13 阅读(281) 评论(0) 推荐(0)
MapReduce的核心编程思想
摘要:1.MapReduce的核心编程思想 2.yarn集群工作机制 3.maptask并行度与决定机制 4.maptask工作机制 5.MapReduce整体流程 6.shuffle机制 7.yarn架构 阅读全文
posted @ 2018-10-25 22:44 阅读(1542) 评论(0) 推荐(0)
MapReduce分布式编程框架
摘要:一、MapReduce分布式编程框架及yarn集群搭建 二、WordCount代码实现 1.Mapper类 2.Reducer类 3.Driver类 4.输入的文件words.txt 5.输出的文件part-r-00000 阅读全文
posted @ 2018-10-25 22:39 阅读(855) 评论(0) 推荐(0)
HDFS基本工作机制
摘要: 阅读全文
posted @ 2018-10-25 22:07 阅读(247) 评论(0) 推荐(0)