随笔分类 - Hadoop学习笔记
摘要:工作中一般使用的都是zookeeper和Hbase的分布式集群. more /etc/profile cd /usr/local zookeeper-3.4.5.tar.gzzookeeper在安装部署的时候,节点数量必须是不少于三个的奇数个.===================...
阅读全文
摘要:Hbase简介: hadoop-database,hadoop领域中的数据库.是一个高可靠,高性能,面向列的,可伸缩(非常容易的加一些计算节点)的分布式的存储管理系统. 在廉价的pc server上搭建起大规模结构化存储集群,和hadoop非常相似,Hbase是利用Hadoop的hdfs...
阅读全文
摘要:hive中的表与hdfs中的文件通过metastore关联起来的.Hive的数据模型:内部表,分区表,外部表,桶表受控表(managed table):包括内部表,分区表,桶表 内部表: 我们删除表的时候在hdfs上对应的目录及数据文件一同被删除了. 分区表: 分区:把数据放在不同的磁盘文件中,...
阅读全文
摘要:Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同的数据量在数据库中查询就比较慢一些,在数据仓库中查询的效率就比较快. 数据仓库是面...
阅读全文
摘要:联盟实际上是一个单独的集群,集群里面包含很多的NameService共享同样的DataNode,同一份数据只上传一份,block块相同,一个集群中删除,另一个集群中还是存在的.同一份数据只是在namespace中注册了一下.联盟是共享同一个datanode,相同的数据还是一份viewfs跨隶属于同一...
阅读全文
摘要:yarn包括两块,一个是ResourceManager,主要的作用是管理集群上的资源,目前hadoop版本上,管理的只有cpu和内存. 另外一个叫NodeManager,这上面会跑我们的程序,叫ApplicationMaster,我们的MapReduce在上面的跑的不叫做Application...
阅读全文
摘要:自动切换的HA,比手动切换HA集群多了一个zookeeper集群机器分配: zookeeper:hadoop4,hadoop5,hadoop6 namenode:hadoop4,hadoop5 datanode:hadoop4,hadoop5,hadoop6 journalnode:hado...
阅读全文
摘要:ssh-copy-id -i hadoop5含义: 节点hadoop4上执行ssh-copy-id -i hadoop5的含义是把hadoop4上的公钥id_rsa.pub的内容追加到hadoop5的授权文件authorized_keys中。 zookeeper在hadoop2中...
阅读全文
摘要:配置linux基本环境: -->java、ip、hostname、hosts、iptables、chkconfig、ssh环境配置hadoop2.2安装在linux64位机器上,需要对源码进行编译: 首先安装google的protobuf yum install glibc-he...
阅读全文
摘要:hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别需要消耗网络资源,它传输的数据量越少,对作业的运行时间越有意义,在这种情况下,我们可以对输出进...
阅读全文
摘要:一:自定义实现InputFormat*数据源来自于内存 *1.InputFormat是用于处理各种数据源的,下面是实现InputFormat,数据源是来自于内存. *1.1 在程序的job.setInputFormatClass(MyselfmemoryInputFormat.class); *1....
阅读全文
摘要:列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的.InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用...
阅读全文
摘要:序列化概念: 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。 Java序列化(java.io.Serializable)Hadoop序列化的特点 紧凑:高效使用存储空间。 快速:读...
阅读全文
摘要:作业在运行时,数据或者是作业调用的一个运行图. 用户写的代码通过JobClient提交给JobTracker Job对象中封装了JobClient JobConf和我们的Job对象几乎是一回事. 把我们的代码打包成jar包,上传到hdfs中,JobClient就会获得一个jar包在...
阅读全文
摘要:public class WordCountApp { // 可以指定目录,目录下如果有二级目录的话,是不会执行的,只会执行一级目录. private static final String INPUT_PATH = "hdfs://hadoop1:9000/abd";// 输入路径 ...
阅读全文
摘要:首先,搭建Ant环境: 1.1.下载antzip包,可以直接从官网下,也可以从我的csdn账号下载,这里我使用的Ant版本是:apache-ant-1.8.4-bin CSDN Ant 所需jar包下载地址 1.2.将apache-ant-1.8.4-bin.zip包解压,然后添加...
阅读全文
摘要:MapReduce概述 MapReduce是一种分布式计算模型,运行时不会在一台机器上运行.hadoop是分布式的,它是运行在很多的TaskTracker之上的. 在我们的TaskTracker上面跑的是Map或者是Reduce Task任务. 通常我们在部署hadoop taskTrac...
阅读全文
摘要:远程过程:java进程.即一个java进程调用另外一个java进程中对象的方法.调用方称作客户端(client),被调用方称作服务端(server).rpc的通信在java中表现为客户端去调用服务端对象中的方法.RPC通信就是cs结构的通信.client端会知道服务端被调用对象的接口.RPC是had...
阅读全文
摘要:小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150 bytes的内存空间。所以,如果有10million个文件,每一个文件对应一个...
阅读全文
摘要:访问hdfs上的文件并写出到输出台 /** * 访问hdfs上的文件并写出到输出台 * @param args */ public static void main(String[] args) { try { //将hdfs格式...
阅读全文