Hadoop学习笔记 - 随笔分类 - 小丁子

Zookeeper,Hbase 伪分布,集群搭建

摘要：工作中一般使用的都是zookeeper和Hbase的分布式集群. more /etc/profile cd /usr/local zookeeper-3.4.5.tar.gzzookeeper在安装部署的时候,节点数量必须是不少于三个的奇数个.===================... 阅读全文

posted @ 2015-12-09 23:47 小丁子阅读(763) 评论(0) 推荐(0)

Hbase简介

摘要：Hbase简介: hadoop-database,hadoop领域中的数据库.是一个高可靠,高性能,面向列的,可伸缩(非常容易的加一些计算节点)的分布式的存储管理系统. 在廉价的pc server上搭建起大规模结构化存储集群,和hadoop非常相似,Hbase是利用Hadoop的hdfs... 阅读全文

posted @ 2015-11-28 11:10 小丁子阅读(735) 评论(0) 推荐(0)

分区表,桶表,外部表,以及hive一些命令行小工具

摘要：hive中的表与hdfs中的文件通过metastore关联起来的.Hive的数据模型:内部表,分区表,外部表,桶表受控表(managed table):包括内部表,分区表,桶表内部表: 我们删除表的时候在hdfs上对应的目录及数据文件一同被删除了. 分区表: 分区:把数据放在不同的磁盘文件中,... 阅读全文

posted @ 2015-10-02 14:45 小丁子阅读(1857) 评论(0) 推荐(0)

HIve体系结构，hive的安装和mysql的安装，以及hive的一些简单使用

摘要：Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同的数据量在数据库中查询就比较慢一些,在数据仓库中查询的效率就比较快. 数据仓库是面... 阅读全文

posted @ 2015-09-30 00:04 小丁子阅读(1193) 评论(0) 推荐(0)

Hadoop2.2 federnation联盟的搭建

摘要：联盟实际上是一个单独的集群,集群里面包含很多的NameService共享同样的DataNode,同一份数据只上传一份,block块相同,一个集群中删除,另一个集群中还是存在的.同一份数据只是在namespace中注册了一下.联盟是共享同一个datanode,相同的数据还是一份viewfs跨隶属于同一... 阅读全文

posted @ 2015-08-29 15:12 小丁子阅读(291) 评论(0) 推荐(0)

Yarn通信过程

摘要：yarn包括两块,一个是ResourceManager,主要的作用是管理集群上的资源,目前hadoop版本上,管理的只有cpu和内存. 另外一个叫NodeManager,这上面会跑我们的程序,叫ApplicationMaster,我们的MapReduce在上面的跑的不叫做Application... 阅读全文

posted @ 2015-08-29 15:01 小丁子阅读(553) 评论(0) 推荐(0)

Hadoop2.2.0 自动切换HA环境搭建

摘要：自动切换的HA,比手动切换HA集群多了一个zookeeper集群机器分配： zookeeper:hadoop4,hadoop5,hadoop6 namenode:hadoop4,hadoop5 datanode:hadoop4,hadoop5,hadoop6 journalnode:hado... 阅读全文

posted @ 2015-08-29 13:13 小丁子阅读(243) 评论(0) 推荐(0)

Hadoop2.2.0 手动切换HA环境搭建

摘要：ssh-copy-id -i hadoop5含义: 节点hadoop4上执行ssh-copy-id -i hadoop5的含义是把hadoop4上的公钥id_rsa.pub的内容追加到hadoop5的授权文件authorized_keys中。 zookeeper在hadoop2中... 阅读全文

posted @ 2015-07-18 14:37 小丁子阅读(356) 评论(0) 推荐(0)

hadoop2.2伪分布安装加2.2源码编译

摘要：配置linux基本环境： -->java、ip、hostname、hosts、iptables、chkconfig、ssh环境配置hadoop2.2安装在linux64位机器上，需要对源码进行编译：首先安装google的protobuf yum install glibc-he... 阅读全文

posted @ 2015-07-11 08:41 小丁子阅读(137) 评论(0) 推荐(0)

hadoop的压缩解压缩,reduce端join,map端join

摘要：hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别需要消耗网络资源,它传输的数据量越少,对作业的运行时间越有意义,在这种情况下,我们可以对输出进... 阅读全文

posted @ 2015-06-10 07:00 小丁子阅读(558) 评论(0) 推荐(0)

自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数，代码例子

摘要：一:自定义实现InputFormat*数据源来自于内存 *1.InputFormat是用于处理各种数据源的,下面是实现InputFormat,数据源是来自于内存. *1.1 在程序的job.setInputFormatClass(MyselfmemoryInputFormat.class); *1.... 阅读全文

posted @ 2015-05-31 06:56 小丁子阅读(488) 评论(0) 推荐(0)

InputFormat,OutputFormat,InputSplit,RecordRead(一些常见面试题),使用yum安装64位Mysql

摘要：列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的.InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用... 阅读全文

posted @ 2015-05-15 06:49 小丁子阅读(992) 评论(0) 推荐(0)

hadoop序列化

摘要：序列化概念: 序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。 Java序列化（java.io.Serializable）Hadoop序列化的特点紧凑：高效使用存储空间。快速：读... 阅读全文

posted @ 2015-04-27 06:58 小丁子阅读(979) 评论(0) 推荐(0)

MapReduce的执行过程.

摘要：作业在运行时,数据或者是作业调用的一个运行图. 用户写的代码通过JobClient提交给JobTracker Job对象中封装了JobClient JobConf和我们的Job对象几乎是一回事. 把我们的代码打包成jar包,上传到hdfs中,JobClient就会获得一个jar包在... 阅读全文

posted @ 2015-04-21 01:09 小丁子阅读(450) 评论(0) 推荐(0)

单词计数WordCountApp.class

摘要：public class WordCountApp { // 可以指定目录,目录下如果有二级目录的话,是不会执行的,只会执行一级目录. private static final String INPUT_PATH = "hdfs://hadoop1:9000/abd";// 输入路径 ... 阅读全文

posted @ 2015-04-21 00:45 小丁子阅读(251) 评论(0) 推荐(0)

使用Ant发布hadoop代码到服务器

摘要：首先,搭建Ant环境: 1.1.下载antzip包,可以直接从官网下,也可以从我的csdn账号下载,这里我使用的Ant版本是:apache-ant-1.8.4-bin CSDN Ant 所需jar包下载地址 1.2.将apache-ant-1.8.4-bin.zip包解压,然后添加... 阅读全文

posted @ 2015-04-21 00:28 小丁子阅读(384) 评论(0) 推荐(0)

MapReduce概述,原理,执行过程

摘要：MapReduce概述 MapReduce是一种分布式计算模型,运行时不会在一台机器上运行.hadoop是分布式的,它是运行在很多的TaskTracker之上的. 在我们的TaskTracker上面跑的是Map或者是Reduce Task任务. 通常我们在部署hadoop taskTrac... 阅读全文

posted @ 2015-04-14 07:09 小丁子阅读(8938) 评论(0) 推荐(1)

rpc,客户端与NameNode通信的过程

摘要：远程过程:java进程.即一个java进程调用另外一个java进程中对象的方法.调用方称作客户端(client),被调用方称作服务端(server).rpc的通信在java中表现为客户端去调用服务端对象中的方法.RPC通信就是cs结构的通信.client端会知道服务端被调用对象的接口.RPC是had... 阅读全文

posted @ 2015-04-08 00:03 小丁子阅读(1642) 评论(0) 推荐(0)

小文件的解决方案

摘要：小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。任何一个文件，目录和block，在HDFS中都会被表示为一个object存储在namenode的内存中，每一个object占用150 bytes的内存空间。所以，如果有10million个文件，每一个文件对应一个... 阅读全文

posted @ 2015-04-04 10:43 小丁子阅读(536) 评论(0) 推荐(0)

hadoop hdfs的java操作

摘要：访问hdfs上的文件并写出到输出台 /** * 访问hdfs上的文件并写出到输出台 * @param args */ public static void main(String[] args) { try { //将hdfs格式... 阅读全文

posted @ 2015-04-04 08:49 小丁子阅读(392) 评论(0) 推荐(0)

小丁子

随笔分类 - Hadoop学习笔记

公告