随笔分类 - 大数据
摘要:本项目是为网站日志流量分析做的基础:网站日志流量分析系统,Kafka、HBase集群的搭建可参考:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),里面有关于该搭建过程 本次对接Kafka及HBase是基于使用Docker搭建Spark集群(用于实现网站流量实时分析模块)搭建的6个
阅读全文
摘要:上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分析由于资源问题尚未完成 这次spark集群用于该项
阅读全文
摘要:之前用虚拟机搭建Hadoop集群(包括伪分布式和完全分布式:Hadoop之伪分布式安装),但是这样太消耗资源了,自学了Docker也来操练一把,用Docker来构建Hadoop集群,这里搭建的Hadoop主要服务于之前没有完成的项目:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分
阅读全文
摘要:纠结了好久,还是花钱了3个4核8G的阿里云主机,且行且珍惜,想必手动搭建过Hadoop集群的完全分布式、HBase的完全分布式的你(当然包括我,哈哈),一定会抱怨如此多的配置,而此时CDH正是解决我们烦恼的时候。 下面安装过程比较长,所以一定要有耐心。 一、CDH介绍 以下是官网给的介绍:个人感觉就
阅读全文
摘要:一、MySQL的安装 Hive的数据,是存在HDFS里的。此外,hive有哪些数据库,每个数据库有哪些表,这样的信息称之为hive的元数据信息。 元数据信息不存在HDFS,而是存在关系型数据库里,hive默认用的是derby数据库来存储。即hive工作时,除了要依赖Hadoop,还要依赖关系型数据库
阅读全文
摘要:一、Hive安装 Hive的安装相对比较简单,Hive是基于Hadoop来使用的,所以搭建Hadoop伪分布式或完全分布式即可,Hive安装过程如下: ①安装并启动Hadoop 在博主的其他博客中有安装说明:Hadoop之伪分布式安装 ②获取Hive安装包,并解压 下载地址:https://mirr
阅读全文
摘要:一、数据库和数据仓库 二、OLTP和OLAP对比 ①OLTP(OnLine Transaction Processing)和OLAP(OnLine Analytical Processing) 数据库属于OLTP系统(联机事务处理系统),覆盖了企业大部分的日常操作,比如:购物、库存、银行、工资、记账
阅读全文
摘要:一、HBase的安装模式 ①单机安装:不依赖于Hadoop的HDFS,配置完即可使用,好处是便于测试,坏处是不具备分布式数据存储的能力。 ②伪分布式安装:单台主机模拟真实环境。 ③完全分布式安装:多台主机(虚拟机)来搭建 二、搭建准备 ①搭建Hadoop+JDK+ZooKeeper(3个zookee
阅读全文
摘要:阅读声明:以下内容是结合网上材料及工作所写的个人理解,如有不当,欢迎大家指正~~~谢谢啦 一、准备工作 由于在分布式环境中,单台ZooKeeper存在单点故障问题,所以我们必须搭建ZooKeeper集群,记录一下个人搭建记录。 ①准备3个节点 我这里选用三个虚拟机: 192.168.144.130
阅读全文
摘要:一、Hadoop的安装模式有3种 ①单机模式:不能使用HDFS,只能使用MapReduce,所以单击模式主要用于测试MR程序。 ②伪分布式模式:用多个线程模拟真实多台服务器,即模拟真实的完全分布式环境。 ③完全分布式模式:用多台机器(或启动多个虚拟机)来完成部署集群。 二、安装主要涉及的内容 ①JD
阅读全文
摘要:一、获取zookeeper的安装包 zookeeper的官网下载:wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz 二、解压安装包 tar -xvf zookeeper-3.
阅读全文

浙公网安备 33010602011771号