随笔分类 -  hadoop

hadoop2.x之IO:基于文件的数据结构
摘要:备注 二进制文件广义上讲是所有文件(在物理上所有文件都是二进制编码)。狭义上是指文本文件以外的文件 。而文本文件又是指ASCII或unicode编码的文件,二者在物理上没有本质的区别,只是逻辑上的概念。所以二进制文件在这里指的是所有文件。 Hadoop主要处理日志文件,其中每一行文本代表一条日志记录 阅读全文

posted @ 2017-08-13 09:56 erygreat 阅读(166) 评论(0) 推荐(0)

hadoop2.x之IO:序列化
摘要:序列化 是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。 反序列化 是指将字节流转回结构化对象的逆过程。 假设我们创建了一个类People,里面两个属性:name和age。在我们JVM没有关闭且该实例没有销毁的时候,我们可以调用这个实例。但是当我们关闭JVM等方式使该实例销 阅读全文

posted @ 2017-08-13 09:45 erygreat 阅读(213) 评论(0) 推荐(0)

hadoop2.x之IO:MapReduce压缩
摘要:前面我们说到了hadoop的压缩,在Hadoop所运行的数据一般都是很大的,输入的数据很大,输出的数据也很大。因此我们有必要对map和Reduce的数据进行压缩存储。 如果我们想对Reduce进行压缩,有两种方法,一种是配置使用Configuration配置。另一种是还是用FileOutputFor 阅读全文

posted @ 2017-08-13 09:32 erygreat 阅读(190) 评论(0) 推荐(0)

hadoop2.x之IO:压缩和解压缩
摘要:文件压缩可以降低存储需要的空间,并且在传输过程中加快传输速度。因此对于大量数据的处理时,压缩是十分重要的。我们考虑一下Hadoop在文件中的压缩用法。 有许多压缩方式,如下: |压缩格式|工具|算法|文件拓展名|是否可切分| | | | | | | |DEFLATE|无|DEFLATE|.defla 阅读全文

posted @ 2017-08-13 09:28 erygreat 阅读(852) 评论(0) 推荐(0)

hadoop2.x之HDFS
摘要:1.HDFS简介 HDFS(有时也成为DFS)是Hadoop的分布式文件系统。他可以将一个文件分布在多个主机上 例如:现在有一个200GB的文件,我们有5台电脑,每台存储为100GB,所以我们在一台电脑上是无法存放该文件的。这时我们就需要将其分区(就是切割成好几块)然后将它分别存储在各个主机上(每个 阅读全文

posted @ 2017-08-13 09:26 erygreat 阅读(378) 评论(0) 推荐(0)

hadoop2.x入门:在windows上用Eclipse编写程序
摘要:虽然有许多人推崇vim编程,但是本人并不习惯vim编程,本人还是比较在window下使用eclipse编程。另外由于本人linux安装的都是最小化安装,没有图形界面,因此使用windows的eclipse编写mapreduce程序远程发送至linux的hadoop下运行。 默认已经在linux上装好 阅读全文

posted @ 2017-07-26 13:45 erygreat 阅读(2036) 评论(0) 推荐(0)

hadoop2.x入门:编写mapreduce对气象数据集求每日最高气温和最低气温
摘要:1.下载气象数据集 气象数据集下载地址为: ftp://ftp.ncdc.noaa.gov/pub/data/noaa 我们下载国内的气象数据,使用下面命令进行下载 国内气象站ID区间为 详细的可以在《 "1951—2007年中国地面气候资料日值数据集台站信息" 》中查看,不过应该不全。另外《 "S 阅读全文

posted @ 2017-07-23 19:30 erygreat 阅读(3954) 评论(2) 推荐(1)

hadoop2.x入门:Hadoop的启动方式
摘要:本内容基于hadoop 2.7.2 1. hadoop启动方式 我们执行hadoop安装目录下的sbin/xxx xxx.sh 初始学习阶段可以使用start all.sh启动全部。 2. 通过web了解Hadoop的运行活动 注意:是hadoop2.x,因为hadoop2.x和hadoop1.x配 阅读全文

posted @ 2017-07-23 11:52 erygreat 阅读(2434) 评论(0) 推荐(0)

hadoop 2.x安装:安装结果测试
摘要:注意:本方法只适用于hadoop2.x 在我们安装之后即使使用jps获取了当前的进程,也未必安装成功,我们实际测试一下。注意关闭防火墙并启动hadoop集群。这里给出简单的测试: 测试成功 阅读全文

posted @ 2017-07-23 11:20 erygreat 阅读(256) 评论(1) 推荐(0)

hadoop 2.x安装:不能加载本地库 - 重新编译hadoop本地库
摘要:1. 安装编译库的依赖包 此过程需要联网,切换至root用户,输入下面命令安装依赖包: 解释一下上面依赖包都是做什么的 svn 源码部署的软件 autoconfautomake 编译工具 libtool 编译工具 cmake 编译工具 ncurses devel 编译有关的包 openssl dev 阅读全文

posted @ 2017-07-23 10:56 erygreat 阅读(796) 评论(1) 推荐(0)

hadoop 2.x安装:不能加载本地库 - 解决libc.so.6 version GLIBC_2.14 not found问题
摘要:试图运行hadoop,提示"libc.so.6: version `GLIBC_2.14' not found",原因是系统的glibc版本太低,软件编译时使用了较高版本的glibc引起的: 17/03/12 08:29:24 DEBUG util.NativeCodeLoader: Failed 阅读全文

posted @ 2017-07-23 10:13 erygreat 阅读(3650) 评论(2) 推荐(0)

hadoop 2.x安装:不能加载本地库 - java.library.path错误
摘要:我们在启动hadoop2.x是可能会有下面这个警告: 这个警告实际上就是不能加载本地库。因为这个错误的原因有很多,因此这里给出一种方案 1. 在hadoop env.sh中加入DEBUG 现在我们无从判定问题在哪里,因此我们在tiny1(master)的hadoop env.sh中加入DEBUG,即 阅读全文

posted @ 2017-07-23 09:59 erygreat 阅读(2370) 评论(0) 推荐(0)

hadoop 2.x安装:完全分布式安装
摘要:1. 安装环境 本文使用三台CentOS6.4虚拟机模拟完全分布式环境。 前五个过程和hadoop1.x安装相同 1.1. 安装环境 |项目|参数| | | | |主操作系统 | Windows 10 64 bit,8GB内存 | |虚拟软件| VMware® Workstation 12 Pro 阅读全文

posted @ 2017-07-22 20:53 erygreat 阅读(445) 评论(0) 推荐(0)

Hadoop1.x安装:关于错误没有到主机的路由
摘要:当我们在名字节点开启hadoop后,我们转到数据节点使用jps查看当前运行的服务时会发现hadoop的相关服务并没有启动,我们查看错误日志会发现启动时出现了错误,启动失败。 错误详情: 这是由于防火墙没有关闭,我们使用root权限关闭tiny1的防火墙 重启hadoop 登陆slave节点查看 成功 阅读全文

posted @ 2017-07-22 20:40 erygreat 阅读(663) 评论(0) 推荐(0)

Hadoop1.x安装:完全分布式安装
摘要:thead { background color: A8A8A8; color:white; } 1. 安装环境 本文使用三台CentOS6.4虚拟机模拟完全分布式环境。 1.1. 安装环境 |项目|参数| | | | |主操作系统 | Windows 10 64 bit,8GB内存 | |虚拟软件 阅读全文

posted @ 2017-07-22 20:12 erygreat 阅读(134) 评论(0) 推荐(0)

导航