随笔分类 -  大数据

摘要:一、前言 1、这一文学习使用Hive 二、Hive介绍与安装 Hive介绍:Hive是基于Hadoop的一个数据仓库工具,可以通过HQL语句(类似SQL)来操作HDFS上面的数据,其原理就是将用户写的HQL语句转换成MapReduce任务去执行,这样不用开发者去写繁琐的MapReduce程序,直接编 阅读全文
posted @ 2018-12-11 17:27 未分配微服务 阅读(459) 评论(0) 推荐(0)
摘要:一、前言 1、这一文开始进入Storm流式计算框架的学习 二、Storm简介 1、Storm与Hadoop的区别就是,Hadoop是一个离线执行的作业,执行完毕就结束了,而Storm是可以源源不断的接受数据源,不停的对数据进行处理,而数据就行水流一样不停的流进来,经过处理,再将结果存入数据库或者做其 阅读全文
posted @ 2018-11-29 15:45 未分配微服务 阅读(734) 评论(0) 推荐(1)
摘要:一、前言 1、上文中我们搭建好了一套HBase集群环境,这一文我们学习一下HBase的基本操作和客户端API的使用 二、shell操作 先通过命令进入HBase的命令行操作 1、建表 (1)以上命令是建立一个test表,里面有一个列族cf (2)与RDS不同,HBase的列不是必须的,当向列族中插入 阅读全文
posted @ 2018-11-23 10:05 未分配微服务 阅读(5936) 评论(2) 推荐(2)
摘要:一、前言 1、前面我们搭建好了高可用的Hadoop集群,本文正式开始搭建HBase 2、HBase简介 (1)Master节点负责管理数据,类似Hadoop里面的namenode,但是他只负责建表改表等操作,如果挂掉了也不会影响使用 (2)RegionServer节点负责存储数据,类似Hadoop里 阅读全文
posted @ 2018-11-22 09:19 未分配微服务 阅读(588) 评论(0) 推荐(0)
摘要:一、前言 1、上文中我们已经搭建好了Hadoop和Zookeeper的集群,这一文来将Hadoop集群变得高可用 2、由于Hadoop集群是主从节点的模式,如果集群中的namenode主节点挂掉,那么集群就会瘫痪,所以我们要改造成HA模式(High Avaliable,高可用性)的集群,说白了就是设 阅读全文
posted @ 2018-11-21 15:26 未分配微服务 阅读(608) 评论(0) 推荐(0)
摘要:一、前言 1、上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二、搭建Hadoop集群 1、根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2、清空 阅读全文
posted @ 2018-11-21 10:30 未分配微服务 阅读(410) 评论(0) 推荐(0)
摘要:一、前言 1、从今天开始进行流式大数据计算的实践之路,需要完成一个车辆实时热力图 2、技术选型:HBase作为数据仓库,Storm作为流式计算框架,ECharts作为热力图的展示 3、计划使用两台虚拟机来打一个小型的分布式系统,使用Ubuntu系统 二、HBase简介 1、HBase是基于HDFS( 阅读全文
posted @ 2018-11-20 17:31 未分配微服务 阅读(695) 评论(2) 推荐(1)