随笔分类 - Hadoop系列
摘要:解读WordCount WordCount程序就是MapReduce的HelloWord程序。通过对WordCount程序分析,我们可以了解MapReduce程序的基本结构和执行过程。 WordCount设计思路WordCount程序很好的体现了MapReduce编程思想。一般来说,文本作为MapR
阅读全文
摘要:MapReduce介绍本节将介绍Hadoop的分布式计算框架:MapReduce。 MapReduce来历MapReduce最早来源于谷歌公司的一篇学术论文,是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,当时主要是为了解决其搜索引擎中大规模网页数据的并行化处理。但由于Ma
阅读全文
摘要:yarn命令的用法 classpath 使用: yarn classpath 打印需要得到Hadoop的jar和所需要的lib包路径 查看节点列表 查看节点状况 先停止YARN,然后通过yarn命令来启动resourcemanager和nodemanager JPS命令,已经没有YARN的相关服务了
阅读全文
摘要:YARN:资源调度平台 YARN集群运行 HDFS已经启动 [root@node1 hadoop]# scp yarn-site.xml node2:/opt/hadoop-2.7.3/etc/hadoop/ yarn-site.xml 100% 3496 282.5KB/s 00:00 [root
阅读全文
摘要:YARN:资源调度平台 YARN集群配置 简单配置 yarn-site.xml mapred-site.xml slave 需要注意:这个文件是指定子节点的位置,同时也是帮助Yarn指定NodeManager启动的位置。即如果HDFS没有指定slaves的话,将没有DataNode;如果Yarn没有
阅读全文
摘要:YARN:资源调度平台 YARN参数解读与调优 yarn-site.xml文件默认参数: http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-common/yarn-default.xml capacity.CapacitySch
阅读全文
摘要:YARN介绍 YARN的全称是Yet Another Resource Negotiator,意为另一种资源调度者。 从Apache Hadoop 2.0开始, Hadoop包含 YARN。 Hadoop 1.x与Hadoop 2.x (1)MRv1 在介绍Yarn之前,我们先回头看一下Hadoop
阅读全文
摘要:HDFS的Java API Java API封装类 执行main方法前 执行main方法后 修改主方法
阅读全文
摘要:HDFS的Java API Java API应用 上传文件 先在本地(客户端)一个文件,比如在D盘下新建一个word2.txt文件,内容随便写 在IDEA中编写Java程序 再次说明,String dest="hdfs://192.168.80.128:9000/user/root/input/wo
阅读全文
摘要:HDFS的Java API Java API介绍 将详细介绍HDFS Java API,一下节再演示更多应用。 Java API 官网 Hadoop 2.7.3 Java API官方地址 http://hadoop.apache.org/docs/r2.7.3/api/index.html 如上图所
阅读全文
摘要:数据准备 通过HDFS 命令方式将本地words.txt文件上传到HDFS上 首先使用hdfs 来创建input文件夹 目录结构 点击打开pom.xml添加 编辑Java代码 在HdfsTest.java类中编辑代码如下: 程序说明: Configuration类:该类的对象封转了客户端或者服务器的
阅读全文
摘要:HDFS:分布式文件系统 HDFS参数解读 官方文档 Hadoop官方文档地址: http://hadoop.apache.org/docs/r2.7.3/ 由于Hadoop相关参数页面需要通过FireFox浏览器打开,这里需要你先安装FireFox浏览器。 下拉页面,可以在页面左下角找到“Conf
阅读全文
摘要:HDFS:分布式文件系统 HDFS集群模式 Hadoop环境变量 同理在node2和node3也要进行类似的环境变量配置。 准备工作 由于前面在node1上部署了Hadoop单机模式,需要停止Hadoop所有服务并清除数据目录。顺便检验一下设置的Hadoop环境变量。 清除Hadoop数据目录 co
阅读全文
摘要:HDFS:分布式文件系统 HDFS文件读写 文件访问权限 针对文件和目录,HDFS有与POSIX非常相似的权限模式。一共提供三类权限模式:只读权限(r)、写入权限(w)和可执行权限(x)。读取文件或列出目录内容时需要只读权限。写入一个文件,或是在一个目录上创建及删除文件或目录,需要写入权限。对于文件
阅读全文
摘要:HDFS:分布式文件系统 HDFS概述 在大数据时代,需要处理分析的数据集的大小已经远远超过了单台计算机的存储能力,需要将数据集进行分区(partition)并存储到若干台独立自治计算机中。但是分区存储的数据不方便管理和维护,迫切需要一种文件系统来管理多台机器上的文件,这就是分布式文件系统(dist
阅读全文
摘要:Hadoop快速入门 WordContent简单应用 Hadoop的HelloWorld程序 创建HDFS目录 hdfs命令位于bin目录下,通过hdfs dfs -mkdir命令可以创建一个目录。 dfs创建的目录默认会放到/user/{username}/目录下面,其中{username}是当前
阅读全文
摘要:Hadoop快速入门 Hadoop单机运行 衔接上一章节,首先切换到Hadoop根目录 namenode格式化 执行bin/hadoop namenode -format命令,进行namenode格式化 在执行结果中可以找到has been successfully formatted,说明name
阅读全文
摘要:Hadoop快速入门 常见的Hadoop部署模式分为单机模式和集群模式,也称为伪分布式模式和分布式模式。 单机模式(伪分布式)模式是在一个节点上部署所有的Hadoop服务。在使用上,单机模式(伪分布式)模式跟集群模式(分布式模式)是一样的。 Hadoop单机配置 2.3节到2.5节内容参考官方文档:
阅读全文
摘要:Hadoop下载与安装 官网下载 打开Apache Hadoop官方网址http://hadoop.apache.org/ The requested file or directory is not on the mirrors. It may be in our archive : http:/
阅读全文
摘要:Hadoop快速入门 Hadoop简介 Hadoop编年史 (1)2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。(2)2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google F
阅读全文

浙公网安备 33010602011771号