Hadoop - 随笔分类 - 子墨言良

Hadoop完全分布式环境下，DataNode进程正常启动，但是网页上不显示DataNode节点

摘要：Hadoop完全分布式环境下，上传文件到hdfs上时报错： 19/05/15 11:03:12 WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException) 阅读全文

posted @ 2019-05-15 11:22 子墨言良阅读(2451) 评论(0) 推荐(0)

Zookeeper启动失败：java.net.BindException: Address already in use

摘要：错误日志如下：如日志中红色字体所示，该错误是由于Zookeeper对应的端口号被占用导致的。查看端口占用情况：如上所示，占用Zookeeper对应端口号的应用是java，只需要kill掉该应用就能成功启动Zookeeper了。重启如下： Zookeeper启动成功！以上就是博主为大家介绍的阅读全文

posted @ 2018-05-14 19:57 子墨言良阅读(18896) 评论(0) 推荐(0)

深入学习Hive应用场景及架构原理

摘要：Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代，大数据是现在互联网的趋势，而hadoop就是大数据时代里的核心技术，但是hadoop的mapreduce操作专业性太强，所以facebook在这些基础上开发了h 阅读全文

posted @ 2018-05-12 16:03 子墨言良阅读(17999) 评论(0) 推荐(2)

Hadoop实战：明星搜索指数统计，找出人气王

摘要：项目介绍本项目我们使用明星搜索指数数据，分别统计出搜索指数最高的男明星和女明星。数据集明星搜索指数数据集，如下图所示。猛戳此链接下载数据集思路分析基于项目的需求，我们通过以下几步完成： 1、编写 Mapper类，按需求将数据集解析为 key=gender，value=name+hotInd 阅读全文

posted @ 2018-05-12 11:02 子墨言良阅读(832) 评论(0) 推荐(0)

MapReduce 二次排序

摘要：默认情况下，Map 输出的结果会对 Key 进行默认的排序，但是有时候需要对 Key 排序的同时再对 Value 进行排序，这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。二次排序原理我们把二次排序主要分为以下几个阶段。 Map 起始阶段在Map阶段，使用 job.setInpu 阅读全文

posted @ 2018-05-10 16:39 子墨言良阅读(1744) 评论(6) 推荐(0)

Hadoop实战：reduce端实现Join

摘要：项目描述现在假设有两个数据集：气象站数据库和天气记录数据库，并考虑如何合二为一。一个典型的查询是：输出气象站的历史信息，同时各行记录也包含气象站的元数据信息。气象站和天气记录合并之后的示意图如下所示。测试数据启动Hadoop集群，然后在hdfs中创建join文件夹用于存放测试数据statio 阅读全文

posted @ 2018-05-10 10:15 子墨言良阅读(518) 评论(0) 推荐(0)

MapReduce中的Join算法

摘要：在关系型数据库中 Join 是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式，在分布式存储下采用MapReduce 编程模型，也有相应的处理措施和优化方法。现在假设有两个数据阅读全文

posted @ 2018-05-09 10:36 子墨言良阅读(325) 评论(0) 推荐(0)

Hadoop计数器

摘要：1. MapReduce计数器是什么计数器是用来记录Job的执行进度和状态的，其作用类似于日志。我们可以在程序的某个位置插入计数器，记录数据或进度的变化情况。 2. MapReduce计数器能做什么计数器为我们提供了一个窗口，用于观察Job运行期间的各种细节数据，对MapReduce的性能调优很阅读全文

posted @ 2018-05-08 16:52 子墨言良阅读(746) 评论(0) 推荐(0)

Hadoop文件压缩

摘要：1. Hadoop的文件压缩需求文件压缩对于大容量的分布式存储系统而言是必须的，它能带来两个好处： 1）减少了文件所需的存储空间； 2）加快了文件在网络上或磁盘间的传输速度。 2. Hadoop支持的压缩格式首先看一下 Hadoop 常见压缩格式，如DEFLATE、Gzip、bzip2、LZO、阅读全文

posted @ 2018-04-26 11:45 子墨言良阅读(5612) 评论(0) 推荐(0)

通过Maven管理多个MapReduce项目

摘要：1. 配置Maven环境首先检查Windows是否配置了maven,进入cmd命令行，输入mvn -version命令，如果出现下图所示的情形则表示满意配置maven。从浏览器进入maven官网，下载maven压缩包：http://maven.apache.org/download.cgi。下阅读全文

posted @ 2018-04-25 11:39 子墨言良阅读(752) 评论(0) 推荐(0)

三节点Hadoop集群搭建

摘要：1. 基础环境搭建新建3个CentOS6.5操作系统的虚拟机，命名（可自定）为masternode、slavenode1和slavenode2。该过程参考上一篇博文CentOS6.5安装配置详解 2.Hadoop集群搭建（以下操作中三个节点相同的地方就只给出主节点的截图，不同的才给出所有节点的截图阅读全文

posted @ 2018-04-20 18:12 子墨言良阅读(4240) 评论(1) 推荐(1)

YARN的架构及原理

摘要：1. YARN产生背景 MapReduce本身存在着一些问题： 1）JobTracker单点故障问题；如果Hadoop集群的JobTracker挂掉，则整个分布式集群都不能使用了。 2）JobTracker承受的访问压力大，影响系统的扩展性。 3）不支持MapReduce之外的计算框架，比如Stor 阅读全文

posted @ 2018-04-15 11:33 子墨言良阅读(20445) 评论(0) 推荐(1)

Hadoop实战：微博数据分析

摘要：项目需求自定义输入格式，将明星微博数据排序后按粉丝数关注数微博数分别输出到不同文件中。数据集下面是部分数据，猛戳此链接下载完整数据集数据格式：明星明星微博名称粉丝数关注数微博数黄晓明黄晓明 22616497 506 2011 张靓颖张靓颖 27878708 238 38 阅读全文

posted @ 2018-04-14 21:30 子墨言良阅读(3282) 评论(0) 推荐(1)

解决Hadoop无法加载本地库的问题： Unable to load native-hadoop library for your platform

摘要：今天跑Hadoop程序时一直提示我无法加载本地库，然后就直接退出运行了，如下图所示。原因是由于Apache提供的Hadoop本地库是32位的，而在64位的服务器上就会有问题，因此需要自己编译64位的版本。下载地址：http://dl.bintray.com/sequenceiq/sequencei 阅读全文

posted @ 2018-04-14 20:32 子墨言良阅读(2564) 评论(0) 推荐(0)

Hadoop实战：用Hadoop处理Excel通话记录

摘要：Hadoop实战：用Hadoop MapReduce实现自定义输入和输出格式来处理Excel通话记录阅读全文

posted @ 2018-04-12 10:20 子墨言良阅读(1078) 评论(0) 推荐(0)

hadoop操作权限问题：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

摘要：hadoop操作权限问题：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable及解决办法阅读全文

posted @ 2018-04-12 09:47 子墨言良阅读(396) 评论(0) 推荐(0)

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

摘要：Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 问题原因及解决方法阅读全文

posted @ 2018-04-11 17:21 子墨言良阅读(9487) 评论(0) 推荐(0)

ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary path

摘要：错误日志如下：解决方法： 1.未配置环境变量-->配置环境变量HADOOP_HOME，然后重启电脑。或者代码中设置System.setProperty("hadoop.home.dir", "hadoop安装路径")。 2.还有一种可能HADOOP_HOME的bin目录下根本没有winutils. 阅读全文

posted @ 2018-04-11 17:14 子墨言良阅读(4543) 评论(0) 推荐(0)

Hadoop 3节点集群无法成功启动zookeeper

摘要：Hadoop 3节点集群无法成功启动zookeeper的原因及解决办法阅读全文

posted @ 2018-04-11 16:01 子墨言良阅读(583) 评论(0) 推荐(0)

bash:haoop:command not found

摘要：bash:haoop:command not found错误解决方案阅读全文

posted @ 2018-04-10 17:07 子墨言良阅读(5676) 评论(1) 推荐(0)

子墨言良

随笔分类 - Hadoop

公告