2018 年 3月 21 日随笔档案 - 扎心了，老铁

2018年3月21日

摘要：前言在Hadoop中，排序是MapReduce的灵魂，MapTask和ReduceTask均会对数据按Key排序，这个操作是MR框架的默认行为，不管你的业务逻辑上是否需要这一操作。技术点 MapReduce框架中，用到的排序主要有两种：快速排序和基于堆实现的优先级队列（PriorityQueue 阅读全文

posted @ 2018-03-21 13:31 扎心了，老铁阅读(7759) 评论(5) 推荐(1)

Hadoop学习之路（十九）MapReduce框架排序

摘要：流量统计项目案例样本示例需求 1、统计每一个用户（手机号）所耗费的总上行流量、总下行流量，总流量 2、得出上题结果的基础之上再加一个需求：将统计结果按照总流量倒序排序 3、将流量汇总统计结果按照手机归属地不同省份输出到不同文件中第一题第二题 FlowBean.java 1 import 阅读全文

posted @ 2018-03-21 11:45 扎心了，老铁阅读(4138) 评论(4) 推荐(4)

Hadoop学习之路（十八）MapReduce框架Combiner分区

摘要：对combiner的理解 combiner其实属于优化方案，由于带宽限制，应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算，计算规则与reduce一致，所以combiner也可以看作特殊的Reducer。执行combiner操作要求开发者必须在程序阅读全文

posted @ 2018-03-21 11:44 扎心了，老铁阅读(4035) 评论(1) 推荐(0)

Hadoop学习之路（十七）MapReduce框架Partitoner分区

摘要： Partitioner分区类的作用是什么？在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需要把同一省份的数据放到一个文件中；按照性别划分的话，需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么，如果要得到多阅读全文

posted @ 2018-03-21 11:43 扎心了，老铁阅读(4490) 评论(1) 推荐(0)

Hadoop学习之路（十六）Hadoop命令hadoop fs -ls详解

摘要： http://blog.csdn.net/strongyoung88/article/details/68952248 阅读全文

posted @ 2018-03-21 11:41 扎心了，老铁阅读(10709) 评论(1) 推荐(0)

Hadoop学习之路（十五）MapReduce的多Job串联和全局计数器

摘要： MapReduce 多 Job 串联需求一个稍复杂点的处理逻辑往往需要多个 MapReduce 程序串联处理，多 job 的串联可以借助 MapReduce 框架的 JobControl 实现实例以下有两个 MapReduce 任务，分别是 Flow 的 SumMR 和 SortMR，其中有阅读全文

posted @ 2018-03-21 11:37 扎心了，老铁阅读(5884) 评论(1) 推荐(0)

Hadoop学习之路（十四）MapReduce的核心运行机制

摘要：概述一个完整的 MapReduce 程序在分布式运行时有两类实例进程： 1、MRAppMaster：负责整个程序的过程调度及状态协调 2、Yarnchild：负责 map 阶段的整个数据处理流程 3、Yarnchild：负责 reduce 阶段的整个数据处理流程以上两个阶段 MapTask 和阅读全文

posted @ 2018-03-21 11:36 扎心了，老铁阅读(8464) 评论(1) 推荐(1)

Hadoop学习之路（十三）MapReduce的初识

摘要： MapReduce是什么首先让我们来重温一下 hadoop 的四大组件： HDFS：分布式存储系统 MapReduce：分布式计算系统 YARN：hadoop 的资源调度系统 Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等 MapReduce 是一个分布式运算程序的阅读全文

posted @ 2018-03-21 11:34 扎心了，老铁阅读(9650) 评论(1) 推荐(1)

Hadoop学习之路（十二）分布式集群中HDFS系统的各种角色

摘要： NameNode 学习目标理解 namenode 的工作机制尤其是元数据管理机制，以增强对 HDFS 工作原理的理解，及培养 hadoop 集群运营中“性能调优”、“namenode”故障问题的分析解决能力问题场景 1、Namenode 服务器的磁盘故障导致 namenode 宕机，如何挽救集阅读全文

posted @ 2018-03-21 11:33 扎心了，老铁阅读(8493) 评论(1) 推荐(2)

Hadoop学习之路（十一）HDFS的读写详解

摘要： HDFS的写操作《HDFS权威指南》图解HDFS写过程详细文字说明（术语） 1、使用 HDFS 提供的客户端 Client，向远程的 namenode 发起 RPC 请求 2、namenode 会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端阅读全文

posted @ 2018-03-21 11:31 扎心了，老铁阅读(15729) 评论(4) 推荐(4)

Hadoop学习之路（十）HDFS API的使用

摘要： HDFS API的高级编程 HDFS的API就两个：FileSystem 和Configuration 1、文件的上传和下载 1 package com.ghgj.hdfs.api; 2 3 import org.apache.hadoop.conf.Configuration; 4 import 阅读全文

posted @ 2018-03-21 11:29 扎心了，老铁阅读(10262) 评论(4) 推荐(3)

Hadoop学习之路（九）HDFS深入理解

摘要： HDFS的优点和缺点 HDFS的优点 1、可构建在廉价机器上通过多副本提高可靠性，提供了容错和恢复机制服务器节点的宕机是常态必须理性对象 2、高容错性数据自动保存多个副本，副本丢失后，自动恢复 HDFS的核心设计思想：分散均匀存储 + 备份冗余存储 3、适合批处理移动计算而非数据，数据位阅读全文

posted @ 2018-03-21 11:19 扎心了，老铁阅读(11177) 评论(3) 推荐(4)

Hadoop学习之路（八）在eclispe上搭建Hadoop开发环境

摘要：一、添加插件将hadoop-eclipse-plugin-2.7.5.jar放入eclipse的plugins文件夹中二、在Windows上安装Hadoop2.7.5 版本最好与Linux集群中的hadoop版本保持一致 1、将hadoop-2.7.5-centos-6.7.tar.gz解压到W 阅读全文

posted @ 2018-03-21 11:06 扎心了，老铁阅读(7533) 评论(3) 推荐(1)

Hadoop学习之路（七）Hadoop集群shell常用命令

摘要： Hadoop常用命令启动HDFS集群启动YARN集群查看HDFS系统根目录创建文件夹级联创建文件夹查看hsdf系统根目录下的所有文件包括子文件夹里面的文件 [hadoop@hadoop1 ~]$ hadoop fs -ls -R /aadrwxr-xr-x - hadoop superg 阅读全文

posted @ 2018-03-21 10:59 扎心了，老铁阅读(16299) 评论(2) 推荐(1)

Hadoop学习之路（六）HDFS基础

摘要： HDFS前言 HDFS：Hadoop Distributed File System ，Hadoop分布式文件系统，主要用来解决海量数据的存储问题设计思想 1、分散均匀存储 dfs.blocksize = 128M 2、备份冗余存储 dfs.replication = 3 在大数据系统中作用为各阅读全文

posted @ 2018-03-21 10:52 扎心了，老铁阅读(10094) 评论(3) 推荐(2)

Hadoop学习之路（五）Hadoop集群搭建模式和各模式问题

摘要：分布式集群的通用问题当前的HDFS和YARN都是一主多从的分布式架构，主从节点管理者和工作者问题：如果主节点或是管理者宕机了。会出现什么问题？群龙无首，整个集群不可用。所以在一主多从的架构中都会有一个通用的问题：当集群中的主节点宕机之后，整个集群不可用。这个现象叫做：单点故障。SPOF 单阅读全文

posted @ 2018-03-21 10:46 扎心了，老铁阅读(9515) 评论(2) 推荐(0)

Hadoop学习之路（四）Hadoop集群搭建和简单应用

摘要：概念了解主从结构：在一个集群中，会有部分节点充当主服务器的角色，其他服务器都是从服务器的角色，当前这种架构模式叫做主从结构。主从结构分类： 1、一主多从 2、多主多从 Hadoop中的HDFS和YARN都是主从结构，主从结构中的主节点和从节点有多重概念方式： 1、主节点从节点 2、master 阅读全文

posted @ 2018-03-21 10:41 扎心了，老铁阅读(51722) 评论(6) 推荐(7)

Hadoop学习之路（三）Hadoop-2.7.5在CentOS-6.7上的编译

摘要：下载Hadoop源码 1、登录官网 2、确定你要安装的软件的版本一个选取原则：不新不旧的稳定版本几个标准： 1）一般来说，刚刚发布的大版本都是有很多问题 2）应该选择某个大版本中的最后一个小版本阅读编译文档 1、准备一个hadoop源码包，我选择的hadoop的版本是：hadoop-2.7. 阅读全文

posted @ 2018-03-21 10:22 扎心了，老铁阅读(13220) 评论(13) 推荐(4)

Hadoop学习之路（二）Hadoop发展背景

摘要： Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2. 2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的阅读全文

posted @ 2018-03-21 10:20 扎心了，老铁阅读(14777) 评论(4) 推荐(7)

扎心了，老铁

公告