随笔分类 -  大数据

摘要:本项目是为网站日志流量分析做的基础:网站日志流量分析系统,Kafka、HBase集群的搭建可参考:使用Docker搭建Spark集群(用于实现网站流量实时分析模块),里面有关于该搭建过程 本次对接Kafka及HBase是基于使用Docker搭建Spark集群(用于实现网站流量实时分析模块)搭建的6个 阅读全文
posted @ 2020-02-03 20:21 coder、 阅读(1627) 评论(0) 推荐(0)
摘要:上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分析由于资源问题尚未完成 这次spark集群用于该项 阅读全文
posted @ 2019-12-26 17:43 coder、 阅读(6046) 评论(0) 推荐(1)
摘要:之前用虚拟机搭建Hadoop集群(包括伪分布式和完全分布式:Hadoop之伪分布式安装),但是这样太消耗资源了,自学了Docker也来操练一把,用Docker来构建Hadoop集群,这里搭建的Hadoop主要服务于之前没有完成的项目:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分 阅读全文
posted @ 2019-12-16 22:41 coder、 阅读(17421) 评论(6) 推荐(1)
摘要:纠结了好久,还是花钱了3个4核8G的阿里云主机,且行且珍惜,想必手动搭建过Hadoop集群的完全分布式、HBase的完全分布式的你(当然包括我,哈哈),一定会抱怨如此多的配置,而此时CDH正是解决我们烦恼的时候。 下面安装过程比较长,所以一定要有耐心。 一、CDH介绍 以下是官网给的介绍:个人感觉就 阅读全文
posted @ 2019-08-13 08:44 coder、 阅读(9894) 评论(18) 推荐(6)
摘要:一、MySQL的安装 Hive的数据,是存在HDFS里的。此外,hive有哪些数据库,每个数据库有哪些表,这样的信息称之为hive的元数据信息。 元数据信息不存在HDFS,而是存在关系型数据库里,hive默认用的是derby数据库来存储。即hive工作时,除了要依赖Hadoop,还要依赖关系型数据库 阅读全文
posted @ 2019-08-07 23:43 coder、 阅读(5925) 评论(0) 推荐(0)
摘要:一、Hive安装 Hive的安装相对比较简单,Hive是基于Hadoop来使用的,所以搭建Hadoop伪分布式或完全分布式即可,Hive安装过程如下: ①安装并启动Hadoop 在博主的其他博客中有安装说明:Hadoop之伪分布式安装 ②获取Hive安装包,并解压 下载地址:https://mirr 阅读全文
posted @ 2019-08-07 22:44 coder、 阅读(278) 评论(0) 推荐(0)
摘要:一、数据库和数据仓库 二、OLTP和OLAP对比 ①OLTP(OnLine Transaction Processing)和OLAP(OnLine Analytical Processing) 数据库属于OLTP系统(联机事务处理系统),覆盖了企业大部分的日常操作,比如:购物、库存、银行、工资、记账 阅读全文
posted @ 2019-08-07 22:13 coder、 阅读(391) 评论(0) 推荐(1)
摘要:一、HBase的安装模式 ①单机安装:不依赖于Hadoop的HDFS,配置完即可使用,好处是便于测试,坏处是不具备分布式数据存储的能力。 ②伪分布式安装:单台主机模拟真实环境。 ③完全分布式安装:多台主机(虚拟机)来搭建 二、搭建准备 ①搭建Hadoop+JDK+ZooKeeper(3个zookee 阅读全文
posted @ 2019-08-07 16:26 coder、 阅读(1472) 评论(0) 推荐(0)
摘要:阅读声明:以下内容是结合网上材料及工作所写的个人理解,如有不当,欢迎大家指正~~~谢谢啦 一、准备工作 由于在分布式环境中,单台ZooKeeper存在单点故障问题,所以我们必须搭建ZooKeeper集群,记录一下个人搭建记录。 ①准备3个节点 我这里选用三个虚拟机: 192.168.144.130 阅读全文
posted @ 2019-07-25 14:23 coder、 阅读(1273) 评论(0) 推荐(0)
摘要:一、Hadoop的安装模式有3种 ①单机模式:不能使用HDFS,只能使用MapReduce,所以单击模式主要用于测试MR程序。 ②伪分布式模式:用多个线程模拟真实多台服务器,即模拟真实的完全分布式环境。 ③完全分布式模式:用多台机器(或启动多个虚拟机)来完成部署集群。 二、安装主要涉及的内容 ①JD 阅读全文
posted @ 2019-07-24 22:59 coder、 阅读(1903) 评论(0) 推荐(0)
摘要:一、获取zookeeper的安装包 zookeeper的官网下载:wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz 二、解压安装包 tar -xvf zookeeper-3. 阅读全文
posted @ 2019-07-24 09:44 coder、 阅读(702) 评论(0) 推荐(0)