hadoop - 随笔分类 - 瞌睡中的葡萄虎

FileSystem实例化过程

摘要：HDFS案例代码Configuration configuration = new Configuration();FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop000:8020"), configuration); ... 阅读全文

posted @ 2014-11-29 18:09 瞌睡中的葡萄虎阅读(4364) 评论(0) 推荐(0)

MapReduce从输入文件到Mapper处理之间的过程

摘要：1、MapReduce代码入口FileInputFormat.setInputPaths(job, new Path(input)); //设置MapReduce输入格式job.waitForCompletion(true);2、InputFormat分析public abstract class ... 阅读全文

posted @ 2014-11-28 23:34 瞌睡中的葡萄虎阅读(759) 评论(0) 推荐(0)

64位Linux编译hadoop-2.5.1

摘要：Apache Hadoop生态系统安装包下载地址：http://archive.apache.org/dist/软件安装目录：~/appjdk: jdk-7u45-linux-x64.rpmhadoop: hadoop-2.5.1-src.tar.gzmaven: apache-maven-3.0.... 阅读全文

posted @ 2014-11-08 20:45 瞌睡中的葡萄虎阅读(1601) 评论(0) 推荐(0)

HDFS副本机制&负载均衡&机架感知&访问方式&健壮性&删除恢复机制&HDFS缺点

摘要：副本机制1、副本摆放策略第一副本：放置在上传文件的DataNode上；如果是集群外提交，则随机挑选一台磁盘不太慢、CPU不太忙的节点上；第二副本：放置在于第一个副本不同的机架的节点上；第三副本：与第二个副本相同机架的不同节点上；如果还有更多的副本：随机放在节点中；2、副本系数1）对于上传文件到HDF... 阅读全文

posted @ 2014-10-24 22:33 瞌睡中的葡萄虎阅读(1789) 评论(0) 推荐(0)

HDFS Java API 常用操作

摘要：package com.luogankun.hadoop.hdfs.api;import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.InputStream... 阅读全文

posted @ 2014-10-23 17:29 瞌睡中的葡萄虎阅读(711) 评论(0) 推荐(0)

Hadoop JobHistory

摘要：hadoop jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下，默认情况下是没有启动的，需要配置完后手工启动服务。mapred-site.xml添加如下配置 mapreduce.jobhistory.address hadoop000:10020 Ma... 阅读全文

posted @ 2014-10-11 16:22 瞌睡中的葡萄虎阅读(12544) 评论(1) 推荐(1)

MapReduce On YARN

摘要：MapReduce计算框架将计算过程分为两个阶段：Map和Reduce Map阶段并行处理输入数据； Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段 Map Task将数据写到本地磁盘； Reduce Task从每个Map Task上读取一份数据；仅适合离... 阅读全文

posted @ 2014-08-03 14:41 瞌睡中的葡萄虎阅读(1629) 评论(1) 推荐(2)

Hadoop2.0构成之YARN

摘要：YARN产生背景Hadoop1.x中的MapReduce构成图如下：在Hadoop1.x中MapReduce是Master/Slave结构，在集群中的表现形式为：1个JobTracker带多个TaskTracker；JobTracker：负责资源管理和作业调度；TaskTracker：定期向JobT... 阅读全文

posted @ 2014-08-02 15:08 瞌睡中的葡萄虎阅读(1224) 评论(0) 推荐(1)

Hadoop2.0构成之HDFS2.0

摘要：HDFS2.0之HA主备NameNode： 1、主NameNode对外提供服务，备NameNode同步主NameNode元数据，以待切换； 2、主NameNode的信息发生变化后，会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中； 3、所有DataNode同时向两个Name... 阅读全文

posted @ 2014-08-02 15:01 瞌睡中的葡萄虎阅读(654) 评论(0) 推荐(0)

Hadoop2.0的基本构成总览

摘要：Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成： HDFS、MapReduce(资源管理和任务调度)；运行时环境为JobTracker和TaskTracker；Hadoop2.0构成：HDFS、MapReduce/其他计算框架、YARN；运行时环境为YARN 1、HDFS... 阅读全文

posted @ 2014-08-02 14:52 瞌睡中的葡萄虎阅读(1896) 评论(0) 推荐(1)

Hadoop2.0产生背景

摘要：Hadoop与Hadoop生态系统的区别Hadoop：是一个适合大数据分布式存储和分布式计算的平台，在Hadoop1.x中对应于HDFS和MapReduce；Hadoop生态系统：是一个很庞大的概念，Hadoop是其中最重要最基础的一个部分；生态系统中的每个子系统只负责解决某一个特定的问题域（甚至可... 阅读全文

posted @ 2014-08-02 14:28 瞌睡中的葡萄虎阅读(357) 评论(0) 推荐(0)

瞌睡中的葡萄虎

公告

随笔分类 - hadoop