随笔分类 -  大数据

FileInputFormat 的实现之TextInputFormat
摘要:说明 TextInputFormat默认是按行切分记录record,本篇在于理解,对于同一条记录record,如果被切分在不同的split时是怎么处理的。首先getSplits是在逻辑上划分,并没有物理切分,也就是只是记录每个split从文件的个位置读到哪个位置,文件还是一个整体。所以在LineRe 阅读全文

posted @ 2019-07-30 10:07 天生一对 阅读(1535) 评论(0) 推荐(0)

java操作Hbase
摘要:``` public class Test { public Connection connection; // 用HBaseconfiguration初始化配置信息是会自动加载当前应用的classpath下的hbase site.xml public static Configuration co 阅读全文

posted @ 2018-10-25 11:13 天生一对 阅读(327) 评论(0) 推荐(0)

Linux 下安装 storm
摘要:一:准备工作 (机器部署情况详见)这篇博客 3台安装supervisor,2台安装nimbus (1)安装jdk1.8 (2)安装zookeeper3.4.5 以上两部分安装可查看这篇博客 (3)下载Storm 1.2.2 下载连接 二:安装storm (1)解压缩 (2)修改目录conf/stor 阅读全文

posted @ 2018-10-25 11:11 天生一对 阅读(1886) 评论(0) 推荐(0)

Hbase 集群安装(Hadoop 2.6.0 hbase0.99.2)
摘要:一:说明 该安装是在hadoop集群安装后进行,详情可见上一篇博客虚拟机centos7系统下安装hadoop ha和yarn ha(详细) 。其中涉及五台机器,两台master(机器名:master,master2),三台slave(slave01,slave02,slave03)。以下将在mast 阅读全文

posted @ 2018-10-10 16:59 天生一对 阅读(265) 评论(0) 推荐(0)

Hadoop mapreduce执行过程涉及api
摘要:资源的申请,分配过程略过,从开始执行开始。 mapper阶段: 首先调用默认的PathFilter进行文件过滤,确定哪些输入文件是需要的哪些是不需要的,然后调用 inputFormat的getSplits 方法进行文件的分割,返回inputSplit列表,每个inputSplit会分到对应的mapp 阅读全文

posted @ 2018-10-10 14:47 天生一对 阅读(191) 评论(0) 推荐(0)

虚拟机centos7系统下安装hadoop ha和yarn ha(详细)
摘要:一:基础环境准备 (一):虚拟机新建五个centos7系统(复制文件夹的方式) (二):角色分配 (三)按照角色分配表配置 (1)更改主机ip(自行查找),如果只是个人搭建玩一玩,可选择安装centos7图形界面操作比较简单 (2)更改主机名方法, vim /etc/hostname文件,修改成对应 阅读全文

posted @ 2018-08-13 10:54 天生一对 阅读(3317) 评论(2) 推荐(0)

导航