随笔分类 -  hadoop

hadoop分布式文件系统
摘要:1、环境 centos7 hadoop2.6.5 zookeeper3.4.9 jdk1.8 master作为active主机,data1作为standby备用机,三台机器均作为数据节点,yarn资源管理器在master上开启,在data1上备用,data1上开启历史服务器 主要参考见下表 Data 阅读全文
posted @ 2016-12-15 19:27 learn21cn 阅读(2499) 评论(0) 推荐(0) 编辑
摘要:1、数据样式 写入之前,需要整理以下数据的格式,之后将数据保存到hdfs中,本例使用的样式如下(用tab分开): 2、代码 假设要将以上样式的数据写入到hbase中,列族为cf,列名为colb,可以使用下面的代码(参考) 这段代码使用mapreduce程序对数据做了进一步处理,之后调用相关的api将 阅读全文
posted @ 2016-12-10 22:29 learn21cn 阅读(2593) 评论(0) 推荐(0) 编辑
摘要:统计某一特定网站的某个时辰访客人数 所用版本:hadoop2.6.5 数据样式如下: 辅助类 mapper 映射特定年份中每月每天每个时辰的访客数 reducer 汇总一个时辰内访客人数 driver 配置信息,程序入口 command result 阅读全文
posted @ 2016-12-05 01:17 learn21cn 阅读(701) 评论(0) 推荐(0) 编辑
摘要:一些例子,所用版本为hadoop 2.6.5 1、统计字数 数据格式如下(单词,频数,以tab分开): 2、统计用户在网站的停留时间 数据格式(用户,毫秒数,网站,以tab分开): 运行:hadoop jar ~/c02mrtest.jar com.mr.test.MRWeb TestData/we 阅读全文
posted @ 2016-12-04 00:33 learn21cn 阅读(663) 评论(0) 推荐(1) 编辑
摘要:1、列出HDFS中的文件 注: 1> 如果出现了java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries 这种错误,可以通过设置设置HADOOP_HOME 环境变量来解决 阅读全文
posted @ 2016-12-03 03:56 learn21cn 阅读(1085) 评论(0) 推荐(0) 编辑
摘要:关于hadoop完全分布式的安装与部署。 阅读全文
posted @ 2016-11-26 05:08 learn21cn 阅读(645) 评论(0) 推荐(0) 编辑