随笔分类 - 大数据
摘要:1.spark应用程序执行流程 2.spark的shuffle机制
阅读全文
摘要:1、概念与作用 HDFS,是一个分布式文件系统,用来解决海量数据的存储问题。 2、设计思路 1、分而治之/分块存储 (把一个大文件切分成多个小文件,每一个节点存储一部分小文件) 使用一个集群来联合存储这个文件 2、冗余存储 一个数据块存储多个副本。多个副本分散存储在多个不同的节点上。 提高副本数,有
阅读全文
摘要:1.表的分类 实体表:记录一个实实在在物体的信息。现实存在的业务对象。维度表:对某些数据的说明,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。事实表:记录某一件实实在在发生的事情。由人的行为触发的。下单事务型事实表,一般指随着业务发生不断产生数据。周期型事实表,一般指随着业务发生不断产生
阅读全文
摘要:1.Mysql安装 在hadoop102和103上安装mysql 安装命令 说明如果报如下错误: 安装autoconf库即可, yum-y install autoconf,卸载后重新安装即可 1.检查本机是否已经安装了mysql的一些软件包,防止冲突 rpm -qa | grep mysql rp
阅读全文
摘要:1.项目简介 2.软硬件资源准备 硬件:使用阿里云云主机来操作,因为只是学习测试使用,为了省钱因此可以选用抢占式实例。购买三台云主机用于测试。 3.hostname(三台主机都执行) IP和hostname映射关系 172.24.67.125 hadoop102172.24.67.126 hadoo
阅读全文
摘要:1.集群规划 服务名称 子服务 服务器 hadoop102 服务器 hadoop103 服务器 hadoop104 HDFS NameNode √ DataNode √ √ √ SecondaryNameNode √ Yarn NodeManager √ √ √ Resourcemanager √
阅读全文
摘要:1.数据采集层介绍 生成的日志文件,需要通过flume采集,然后同步至kafaka,再从kafaka 通过flume同步至hdfs,主要是为了练习使用的技术,设计上面不用纠结。 2.flume source的选择 Taildir Source http://flume.apache.org/rele
阅读全文

浙公网安备 33010602011771号