随笔分类 - Hadoop
摘要:Hadoop完全分布式环境下,上传文件到hdfs上时报错: 19/05/15 11:03:12 WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException)
阅读全文
摘要:错误日志如下: 如日志中红色字体所示,该错误是由于Zookeeper对应的端口号被占用导致的。 查看端口占用情况: 如上所示,占用Zookeeper对应端口号的应用是java,只需要kill掉该应用就能成功启动Zookeeper了。 重启如下: Zookeeper启动成功! 以上就是博主为大家介绍的
阅读全文
摘要:Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop的mapreduce操作专业性太强,所以facebook在这些基础上开发了h
阅读全文
摘要:项目介绍 本项目我们使用明星搜索指数数据,分别统计出搜索指数最高的男明星和女明星。 数据集 明星搜索指数数据集,如下图所示。猛戳此链接下载数据集 思路分析 基于项目的需求,我们通过以下几步完成: 1、编写 Mapper类,按需求将数据集解析为 key=gender,value=name+hotInd
阅读全文
摘要:默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。 二次排序原理 我们把二次排序主要分为以下几个阶段。 Map 起始阶段 在Map阶段,使用 job.setInpu
阅读全文
摘要:项目描述 现在假设有两个数据集:气象站数据库和天气记录数据库,并考虑如何合二为一。一个典型的查询是:输出气象站的历史信息,同时各行记录也包含气象站的元数据信息。 气象站和天气记录合并之后的示意图如下所示。 测试数据 启动Hadoop集群,然后在hdfs中创建join文件夹用于存放测试数据statio
阅读全文
摘要:在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式,在分布式存储下采用MapReduce 编程模型,也有相应的处理措施和优化方法。 现在假设有两个数据
阅读全文
摘要:1. MapReduce计数器是什么 计数器是用来记录Job的执行进度和状态的,其作用类似于日志。我们可以在程序的某个位置插入计数器,记录数据或进度的变化情况。 2. MapReduce计数器能做什么 计数器为我们提供了一个窗口,用于观察Job运行期间的各种细节数据,对MapReduce的性能调优很
阅读全文
摘要:1. Hadoop的文件压缩需求 文件压缩对于大容量的分布式存储系统而言是必须的,它能带来两个好处: 1)减少了文件所需的存储空间; 2)加快了文件在网络上或磁盘间的传输速度。 2. Hadoop支持的压缩格式 首先看一下 Hadoop 常见压缩格式,如DEFLATE、Gzip、bzip2、LZO、
阅读全文
摘要:1. 配置Maven环境 首先检查Windows是否配置了maven,进入cmd命令行,输入mvn -version命令,如果出现下图所示的 情形则表示满意配置maven。 从浏览器进入maven官网,下载maven压缩包:http://maven.apache.org/download.cgi。下
阅读全文
摘要:1. 基础环境搭建 新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode、slavenode1和slavenode2。该过程参考上一篇博文CentOS6.5安装配置详解 2.Hadoop集群搭建(以下操作中三个节点相同的地方就只给出主节点的截图,不同的才给出所有节点的截图
阅读全文
摘要:1. YARN产生背景 MapReduce本身存在着一些问题: 1)JobTracker单点故障问题;如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。 2)JobTracker承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算框架,比如Stor
阅读全文
摘要:项目需求 自定义输入格式,将明星微博数据排序后按粉丝数 关注数 微博数 分别输出到不同文件中。 数据集 下面是部分数据,猛戳此链接下载完整数据集 数据格式: 明星 明星微博名称 粉丝数 关注数 微博数 黄晓明 黄晓明 22616497 506 2011 张靓颖 张靓颖 27878708 238 38
阅读全文
摘要:今天跑Hadoop程序时一直提示我无法加载本地库,然后就直接退出运行了,如下图所示。 原因是由于Apache提供的Hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要自己编译64位的版本。下载地址:http://dl.bintray.com/sequenceiq/sequencei
阅读全文
摘要:Hadoop实战:用Hadoop MapReduce实现自定义输入和输出格式来处理Excel通话记录
阅读全文
摘要:hadoop操作权限问题:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable及解决办法
阅读全文
摘要:Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 问题原因及解决方法
阅读全文
摘要:错误日志如下: 解决方法: 1.未配置环境变量-->配置环境变量HADOOP_HOME,然后重启电脑。或者代码中设置System.setProperty("hadoop.home.dir", "hadoop安装路径")。 2.还有一种可能HADOOP_HOME的bin目录下根本没有winutils.
阅读全文
摘要:Hadoop 3节点集群无法成功启动zookeeper的原因及解决办法
阅读全文
摘要:bash:haoop:command not found错误解决方案
阅读全文

浙公网安备 33010602011771号