文章分类 - Hadoop
摘要:MapReduce 组合器Combiner a. 集群的带宽限制了mapreduce作业的数量,因此应该尽量避免map和reduce任务之间的数据传输,hadoop允许用户对map的输出数据进行处理,用户可自定义combiner函数(如同map函数和reduce函数一般),其逻辑一般和reduce函
阅读全文
摘要:Java逻辑完成Reduce join 1.MapReduce处理数据 通过Hadoop的组件对拉取的数据根据客户的需求进行MapReduce,首先使用Java逻辑将客户所需要实现的需求进型实现,首先要创建一个main方法主类,在类中作如下的操作: package com.shujia; impor
阅读全文
摘要:Hadoop高可用(HA) 高可用架构 1.Hadoop1.x版本呢所带来的问题 使用场景: 1.单点故障 a. 每个群集只有一个NameNode,NameNode存在单点故障(SPOF)。 b. 如果该计算机或进程不可用,则整个群集在整个NameNode重新启动或在另一台计算机上启动之前将不可用
阅读全文
摘要:HDFS写流程(微观) 1.写数据就是从客户端上的数据上传到hdfs上 · 宏观过程 **1.**首先客户端对主节点(NN)发送文件,主节点(NN)进行接收文件,在接收过程中,例如客户端向主节点发送一个put命令上传文件,在接收数据的过程中,会首先调用RPC的通信过程调起NN的put方法,先将文件放
阅读全文
摘要:Java构建Hadoop操作HDFS 1.首先在idea中创建一个Maven项目,接着在Maven项目配置pom.xml文件的依赖,这里配置父包中的依赖,使用进行管理相关依赖,并在中指定版本号 <properties> <maven.compiler.source>8</maven.compiler
阅读全文
摘要:HDFS写流程(宏观) 1.写数据就是从客户端上的数据上传到hdfs上 宏观过程 **1.**首先客户端对主节点(NN)发送文件,主节点(NN)进行接收文件,在接收过程中,例如客户端向主节点发送一个put命令上传文件,在接收数据的过程中,会首先调用RPC的通信过程调起NN的put方法,接着对文件进行
阅读全文
摘要:HDFS:NN,DN,SSN Namenode(NN) 功能: 1、接受客户端的读/写服务 因为NameNode知道数据文件与DataNode的对应关系 2、保存文件的时候会保存文件的元数据信息 a. 文件的归属 b. 文件的权限 c. 文件的大小,时间 d. Block
阅读全文
摘要:HDFS读流程 1.首先客户端发送请求到 DFS ,申请读取某一个文件 2.DFS 去 NN 查找这个文件的信息 ( 权限 , 文件是否存在 ) 如果文件不存在,抛出指定的错误 如果文件存在,返回成功状态 3.DFS 创建 FSDataInputStream 对象,客户端通过这个对象读取数据 4.客
阅读全文
摘要:Hadoop的发展史 发布了三篇论文 *a:GFS(Google File System)* *b:MapReduce(数据计算方法)* *c:BigTable:HBase* Hadoop三大开源发行版本:Apache、Cloudera(CDH)、Hortonworks(HDP)。Apa
阅读全文
摘要:Hadoop搭建 一.准备工作 三台虚拟机:master、node1、node2 时间同步 ntpdate ntp.aliyun.com 调整时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime jdk1.8 java -version 修改主
阅读全文

浙公网安备 33010602011771号