摘要: 1.hbase的数据库介绍(掌握) 2.hbase的基础架构(掌握) 3.hbase的集群的搭建 4.hbase shell 5.hbase的api开发(重点) 6.hbase的底层原理(重点) ​ 1)hbase的详细架构 ​ 2)hbase的数据读写流程 7.rowkey的设计技巧 1.hbas 阅读全文
posted @ 2019-08-04 23:20 jeasonchen001 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 1.oozie的介绍 oozie:是一个任务调度管理系统。通过xml实现任务的定制。底层是通过mapreduce来完成任务的执行。实际跑的就是一个maptask。任务之间是通过DAG(有向无环图)来进行调度。 2.oozie的架构 1)client:客户端用于提交任务,通过命令提交任务。 2)ser 阅读全文
posted @ 2019-08-04 23:19 jeasonchen001 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 1.impala的介绍 1.impala是cloudera公司提供的一个查询工具。通过sql进行数据的查询。impala和hive是紧耦合。impala的 查询速度要比hive高出3--10倍。它摒弃了mapreduce,通过C来快速的完成数据的检索查询。 impala是基于内存进行运算。 2.im 阅读全文
posted @ 2019-08-04 23:18 jeasonchen001 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 1.数据的收集 flume taildir 2.数据的预处理 1)数据的预处理:处理掉无法进行分析的无效数据. 2) pageView:按照页面的角度进行数据的处理。 3)visit:按照用户的角度进行数据的处理。session 1.数据仓库的建模 1.维度表:按照一定的维度去创建一张表。维度就是对 阅读全文
posted @ 2019-08-04 23:17 jeasonchen001 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1.Flume介绍 flume:是一个分布式的数据采集系统。 flume的主要作用:最主要的就是收集日志文件。 现在采用的是ng版本,是cloudera公司作为自身一款产品开发的。 flume的运行机制 最核心的角色:agent(代理),由我们设定一个数据收的方式,一个代理代表一个服务 agent的 阅读全文
posted @ 2019-08-04 23:15 jeasonchen001 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 1.数据仓库 数据仓库的概念:DW DWH data warehouse,将传统的数据进行集成,进行分析和决策的作用。 仓库:存储物品的地方。作为仓库而言,既不会生产物品,也不会消耗物品。 数据仓库:既不会生产数据,也不会删除数据,主要存储的是历史数据,用于分析和决策使用。 数据仓库的特征: (1) 阅读全文
posted @ 2019-08-04 23:14 jeasonchen001 阅读(146) 评论(0) 推荐(0) 编辑
摘要: hive 1.数据仓库 数据仓库的概念:DW DWH data warehouse,将传统的数据进行集成,进行分析和决策的作用。 仓库:存储物品的地方。作为仓库而言,既不会生产物品,也不会消耗物品。 数据仓库:既不会生产数据,也不会删除数据,主要存储的是历史数据,用于分析和决策使用。 数据仓库的特征 阅读全文
posted @ 2019-08-04 23:14 jeasonchen001 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 1.Mapreduce的分区和reducetask的数量 1.分区:将相同的数据按照一定规则发送到同一个reduce中进行数据的处理。 原则:物理类聚 人以群分 2.reducetask的数量: 1个reducetask最终对应1个生成的文件 默认情况下,只有一个reducetask 3.hashp 阅读全文
posted @ 2019-08-04 23:13 jeasonchen001 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 1.hdfs的架构介绍 datanode定时向namenode做心跳汇报: namenode管理元数据: a.txt /test/input/a.txt 元数据会记录a.txt的存储路径吗?不会记录存储路径,只会记录a.txt的存储节点node01,datanode做心跳的时候,将当前存储的列表返回 阅读全文
posted @ 2019-08-04 23:12 jeasonchen001 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.三台虚拟机环境准备(重要) 2.linux基础和shell脚本的增强 3.大数据集群环境的准备(重要) 4.zookeeper的介绍和集群操作 5.网络编程(了解) 1.虚拟机的创建并联网 FDQN:全限定域名 机器名+域名的方式进行命名。 虚拟机默认用户名:root 密码:123456 2.l 阅读全文
posted @ 2019-08-04 23:11 jeasonchen001 阅读(106) 评论(0) 推荐(0) 编辑