随笔分类 - hadoop
hadoop
摘要:安装部分 使用root用户,进入到/bigdata/soft目录,下载的文件会到这个目录,并安装wget工具 cd /bigdata/soft yum -y install wget 使用wget命令下载MySQL的rpm包 wget -i -c http://dev.mysql.com/get/m
阅读全文
摘要:yarn支持3种调度器,FIFO,容量,公平调度器。 ####FIFO调度算法 只有一个队列,任务执行是按照先进先出的顺序执行,无法支持多用户并发的场景。如下图 ####容器调度算法 yahoo开发的多用户调度器(apache yarn中默认使用) 特征 多队列:每个队列可配置一定的资源量,每个队列
阅读全文
摘要:yarn作为hadoop的资源分配和调度的基础组件,有哪些相关的参数是和这个组件有关呢? ResourceManager相关 yarn.resourcemanager.scheduler.class #配置调度器,apache yarn默认容量调度器,CDH默认公平调度器 yarn.resource
阅读全文
摘要:从标题可以分析出来,我们要使用到shell,还要推送日志信息到hdfs上。 定义出上传的路径和临时路径,并配置好上传的log日志信息。 这里我使用了上一节配置的nginx的error.log #上传log日志文件的存放路径 /bigdata/logs/upload/log/ #上传log日志文件的临
阅读全文
摘要:自定义分区 我们在wordcount小案例中看到结果是1个part-r-000000的文件,那如果我想对统计结果, 按照不同的条件输出到不同的文件(分区),那该如何处理呢? 我们梳理一下这个过程先 一个文本文件,上传到hdfs后以block块存储,split到切片,一个切片对应一个maptask任务
阅读全文
摘要:上次我们做了简单的一个wordcount案例,下边我们在做一个复杂一点的小案例。 例如传输一个对象到wordcount中,输入数据格式如下: 3 12939234290 120.156.21.100 www.baidu.com 116 125 200 id 手机号码 网络ip 网址 下载流量 上传流
阅读全文
摘要:接上回我们谈的hdfs api相关的操作,我们来先跑一个小案例,后边详细说mapreduce和yarn的原理。 打开idea新建一个maven工程,pom文件中添加项目依赖如下: <dependencies> <dependency> <groupId>org.apache.hadoop</grou
阅读全文
摘要:HDFS shell API HDFS作为大数据的文件系统,可以放置数据文件,列举几个常用的shell脚本命令, 用法和linux中的基本类似,不过这个是hadoop里的一套,所以我们要用hadoop fs开头 具体可以使用hadoop fs --help 查看帮助信息 例如: ls hadoop
阅读全文
摘要:hadoop HA高可用搭建 接上回hadoop概述二,我们了解到了hdfs有弊端,需要搭建HA,通过官网查看有2中方式进行高可用。一种基于QJM方式的,另一种基于联邦的, 我们今天先来使用QJM方案来做hadoop的高可用,使用4台服务器来做集群,还会用到zookeeper来做主备切换的调控 先说
阅读全文
摘要:hadoop 概述一,已经写了hdfs的一些基本概念,那作为分布式文件系统,是怎么进行读写的?下边讲述hdfs的读写流程 HDFS中读写流程中有一些额外的小的概念,下面讲述一下 block blokc块,一般是128M,可以修改大小,但不推荐,原因如下: 如果块设置过大, 一方面,从磁盘传输数据的时
阅读全文
摘要:Hadoop概述信息 hadoop 有三大组成部分,HDFS(分布式文件存储系统)、YARN(资源管理器)、MAPREDUCE(分布式计算框架) ,下边我们来简单介绍一下 HDFS 分布式文件存储系统 HDFS分布式文件系统,是由Google的GFS谷歌文件系统开源出来,其存储模型是有主从结构的,可
阅读全文
摘要:远程复制同步脚本 1.通过scp直接拷贝 一般Linux系统之间复制同步文件,或者文件夹使用的是scp,基本语法如下: scp -r sourceFile username@host:destpath 或者在有ssh免密登录的情况下可以使用如下命令 scp -r sourceFile host:$P
阅读全文
摘要:hadoop集群安装 安装环境服务部署规划 服务器IP node01 node02 node03 HDFS NameNode HDFS SecondaryNameNode HDFS DataNode DataNode DataNode YARN ResourceManager YARN NodeMa
阅读全文

浙公网安备 33010602011771号