随笔分类 - 大数据
摘要:一、前言 1、这一文学习使用Hive 二、Hive介绍与安装 Hive介绍:Hive是基于Hadoop的一个数据仓库工具,可以通过HQL语句(类似SQL)来操作HDFS上面的数据,其原理就是将用户写的HQL语句转换成MapReduce任务去执行,这样不用开发者去写繁琐的MapReduce程序,直接编
阅读全文
摘要:一、前言 1、这一文开始进入Storm流式计算框架的学习 二、Storm简介 1、Storm与Hadoop的区别就是,Hadoop是一个离线执行的作业,执行完毕就结束了,而Storm是可以源源不断的接受数据源,不停的对数据进行处理,而数据就行水流一样不停的流进来,经过处理,再将结果存入数据库或者做其
阅读全文
摘要:一、前言 1、上文中我们搭建好了一套HBase集群环境,这一文我们学习一下HBase的基本操作和客户端API的使用 二、shell操作 先通过命令进入HBase的命令行操作 1、建表 (1)以上命令是建立一个test表,里面有一个列族cf (2)与RDS不同,HBase的列不是必须的,当向列族中插入
阅读全文
摘要:一、前言 1、前面我们搭建好了高可用的Hadoop集群,本文正式开始搭建HBase 2、HBase简介 (1)Master节点负责管理数据,类似Hadoop里面的namenode,但是他只负责建表改表等操作,如果挂掉了也不会影响使用 (2)RegionServer节点负责存储数据,类似Hadoop里
阅读全文
摘要:一、前言 1、上文中我们已经搭建好了Hadoop和Zookeeper的集群,这一文来将Hadoop集群变得高可用 2、由于Hadoop集群是主从节点的模式,如果集群中的namenode主节点挂掉,那么集群就会瘫痪,所以我们要改造成HA模式(High Avaliable,高可用性)的集群,说白了就是设
阅读全文
摘要:一、前言 1、上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二、搭建Hadoop集群 1、根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2、清空
阅读全文
摘要:一、前言 1、从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图 2、技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示 3、计划使用两台虚拟机来打一个小型的分布式系统,使用Ubuntu系统 二、HBase简介 1、HBase是基于HDFS(
阅读全文

浙公网安备 33010602011771号