摘要: 前言 前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置 MapReduce程序的默认配置 1)概述 在我们的MapReduce程序中有一些默认的配置。所以说当我们程序如果要使用这些默认配置时,可以不 阅读全文
posted @ 2017-11-24 15:52 jstarseven 阅读(847) 评论(0) 推荐(0) 编辑
摘要: 前言 前面的一篇给大家写了一些MapReduce的一些程序,像去重、词频统计、统计分数、共现次数等。这一篇给大家介绍的是关于Combiner优化操作。 一、Combiner概述 1.1、为什么需要Combiner 我们map任务处理的结果是存放在运行map任务的节点上。 map处理的数据的结果在进入 阅读全文
posted @ 2017-11-24 15:50 jstarseven 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 一、统计好友对数(去重) 1.1、数据准备 joe, jon joe , kia joe, bob joe ,ali kia, joe kia ,jim kia, dee dee ,kia dee, ali ali ,dee ali, jim ali ,bob ali, joe ali ,jon j 阅读全文
posted @ 2017-11-24 15:49 jstarseven 阅读(479) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、MapReduce并行处理的基本过程 二、MapRrduce输入与输出问题 三、MapReduce实际处理流程 四、一个job的运行流程 4.1、提交作业 4.2、作业初始化 4.3、任务的分配 4.4、任务的执行 4.5、更新任务的执行进度和状态 4.6、任务完成 阅读全文
posted @ 2017-11-24 15:47 jstarseven 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、写一个MapReduce程序例子 1.1、数据准备 1.2、需求分析 1.3、编写一个解析类解析天气数据 1.4、编写一个MapReduce程序求1992I年的最高温度 1.5、使用Maven打包Jar包上传到Hadoop客户端的Linux服务器中 二、分析上面Map 阅读全文
posted @ 2017-11-24 15:43 jstarseven 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、背景 二、大数据的并行计算 三、Hadoop的MapReduce概述 3.1、需要MapReduce原因 3.2、MapReduce简介 3.3、MapReduce编程模型 四、编写MapReduce程序 4.1、数据样式与环境 4.2、需求分析 4.3、代码实现 3 阅读全文
posted @ 2017-11-24 15:42 jstarseven 阅读(494) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、序列化和反序列化概述 1.1、序列化和反序列化的定义 1.2、序列化和反序列化的应用 1.3、RPC序列化格式要求 二、Hadoop中和虚序列化相关的接口和类 1.1、Hadoop对基本数据类型的包装 1.2、Writable接口 1.3、实例解释Java和Hadoo 阅读全文
posted @ 2017-11-24 15:38 jstarseven 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、数据完整性概述 二、HDFS的数据完整性 2.1、本地文件上传到HDFS集群时的校验 2.2、HDFS集群文件读取到本地 三、涉及数据一致性的类:LocalFileSystem和RawFileSystem 3.1、概述 3.2、编写程序验证 2.1、本地文件上传到HD 阅读全文
posted @ 2017-11-24 15:36 jstarseven 阅读(589) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、压缩(Compression)概述 1.1、压缩的好处 1.2、压缩格式总结 二、编解码器(Codec)概述 三、Java编程实现文件的压缩与解压缩 3.1、原理分析 3.2、相关类和方法 3.3、Java将本地文件压缩上传到集群当中 3.4、Java将集群文件解压缩 阅读全文
posted @ 2017-11-24 15:35 jstarseven 阅读(454) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置 1.2、数据块(data block)简介 1.3、对分布式文件系统中的块进行抽象会带来很多好处 二、Java访问HDFS中的数据块 2.1、相关类和方法介绍 2.2、编写程序访问 二、Java查看HDFS集 阅读全文
posted @ 2017-11-24 15:34 jstarseven 阅读(962) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、HDFS容错机制 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1.4、读写容错 1.5、数据节点(DN)失效 二、HDFS备份规则 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1. 阅读全文
posted @ 2017-11-24 15:32 jstarseven 阅读(1238) 评论(0) 推荐(0) 编辑
摘要: 本文主要是将synchronized关键字用法作为例子来去解释Java中的对象锁和类锁。特别的是希望能帮大家理清一些概念。 一、synchronized关键字 synchronized关键字有如下两种用法: 1、 在需要同步的方法的方法签名中加入synchronized关键字。 synchroniz 阅读全文
posted @ 2017-11-24 15:27 jstarseven 阅读(515) 评论(0) 推荐(0) 编辑