大数据 - 随笔分类(第2页) - 酸奶加绿茶

spark笔记

摘要：1.spark应用程序执行流程 2.spark的shuffle机制阅读全文

posted @ 2018-08-26 09:52 酸奶加绿茶阅读(259) 评论(0) 推荐(0)

摘要：1、概念与作用 HDFS，是一个分布式文件系统，用来解决海量数据的存储问题。 2、设计思路 1、分而治之/分块存储（把一个大文件切分成多个小文件，每一个节点存储一部分小文件）使用一个集群来联合存储这个文件 2、冗余存储一个数据块存储多个副本。多个副本分散存储在多个不同的节点上。提高副本数，有阅读全文

posted @ 2017-09-13 17:53 酸奶加绿茶阅读(1331) 评论(0) 推荐(0)

数仓理论

摘要：1.表的分类实体表：记录一个实实在在物体的信息。现实存在的业务对象。维度表：对某些数据的说明，一般是指对应一些业务状态，编号的解释表。也可以称之为码表。事实表：记录某一件实实在在发生的事情。由人的行为触发的。下单事务型事实表，一般指随着业务发生不断产生数据。周期型事实表，一般指随着业务发生不断产生阅读全文

posted @ 2017-06-14 15:36 酸奶加绿茶阅读(259) 评论(0) 推荐(0)

数仓项目04：环境搭建（MysqlHA+Hive）

摘要：1.Mysql安装在hadoop102和103上安装mysql 安装命令说明如果报如下错误：安装autoconf库即可， yum-y install autoconf，卸载后重新安装即可 1.检查本机是否已经安装了mysql的一些软件包，防止冲突 rpm -qa | grep mysql rp 阅读全文

posted @ 2017-04-26 09:53 酸奶加绿茶阅读(371) 评论(0) 推荐(0)

数仓项目06：DWD层

摘要：1. 阅读全文

posted @ 2017-04-19 15:09 酸奶加绿茶阅读(549) 评论(0) 推荐(0)

数仓项目01：准备工作

摘要：1.项目简介 2.软硬件资源准备硬件：使用阿里云云主机来操作，因为只是学习测试使用，为了省钱因此可以选用抢占式实例。购买三台云主机用于测试。 3.hostname（三台主机都执行） IP和hostname映射关系 172.24.67.125 hadoop102172.24.67.126 hadoo 阅读全文

posted @ 2017-03-15 13:42 酸奶加绿茶阅读(244) 评论(0) 推荐(0)

数仓项目02：集群搭建

摘要：1.集群规划服务名称子服务服务器 hadoop102 服务器 hadoop103 服务器 hadoop104 HDFS NameNode √ DataNode √ √ √ SecondaryNameNode √ Yarn NodeManager √ √ √ Resourcemanager √ 阅读全文

posted @ 2017-03-08 16:45 酸奶加绿茶阅读(2355) 评论(0) 推荐(0)

数仓项目03：数据采集层（Flume+Kafka）

摘要：1.数据采集层介绍生成的日志文件，需要通过flume采集，然后同步至kafaka，再从kafaka 通过flume同步至hdfs，主要是为了练习使用的技术，设计上面不用纠结。 2.flume source的选择 Taildir Source http://flume.apache.org/rele 阅读全文

posted @ 2017-03-08 16:34 酸奶加绿茶阅读(834) 评论(0) 推荐(0)

求知若饥，虚心若愚。

[Stay Hungry, Stay Foolish.]

随笔分类 - 大数据

公告