摘要: 1. 模块开发之数据仓库设计 a. 维度建模的基本概念(如何来构建数仓中的表) 维度建模是专门应用于分析型数据库,数据仓库,数据集市建模的方法。(不能用于关系型数据库)。 事实表:一般和分析的主题有关 需求:分析最近一年的订单销售情况 主题:订单 事实表:分析主题的度量(订单详细数据) 特点:一堆主 阅读全文
posted @ 2019-10-05 17:06 单词计数程序大牛 阅读(351) 评论(0) 推荐(0)
摘要: 牛客网连接:https://www.nowcoder.com/practice/54275ddae22f475981afa2244dd448c6 思路说明:设置两个栈,in栈负责push数据,out栈负责pop数据,当想要push实收直接in.push,当想要出队列的时候,in栈先出,在进入out栈 阅读全文
posted @ 2019-10-04 21:31 单词计数程序大牛 阅读(333) 评论(0) 推荐(0)
摘要: 1. 数据采集之Flume Taildir Source 相当于exec + spool的功能,还有断点续传功能。Flume1.7版本以上才有此功能,可以监控一个目录,并且根据正则表达式对目录中文件名对文件进行实时收集。 注意1:当只以文件大小的方式进行滚动,如果文件不满足条件,会永远处于临时状态。 阅读全文
posted @ 2019-09-28 15:09 单词计数程序大牛 阅读(337) 评论(0) 推荐(0)
摘要: 1. 背景介绍 为了盈利,需要收集用户的访问日志来进行分析,根据分析结果提高用户的体验,最终转化为自己会员。 2. 三种角度分析 网站的眼睛(营销人员):用户喜欢什么,用户常去的页面,用户从哪里来。 网站的神经(技术人员):网站界面不好看,不合理。 网站的大脑(商业角度):投资回报率(ROI) 3. 阅读全文
posted @ 2019-09-27 20:18 单词计数程序大牛 阅读(215) 评论(0) 推荐(0)
摘要: Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。 Sqoop的工作机制是将导入导出命令转换为mapreduce名利。 2.sqoop安装 修改sqoop-env.xml: 3.全量导入 mysql导入hdfs mysql导入表结构到hive mysql导入数据 阅读全文
posted @ 2019-09-26 21:42 单词计数程序大牛 阅读(191) 评论(0) 推荐(0)
摘要: 1. 数据仓库 a. 概念 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。不产生数据(不会新建数据),也不消费数据(只做分析),数据来源于外部,是一个仓库,不是工厂。 b. 特征 面向主题:需要先定义一个主题,比如分析计算机协会有100万人,现在需要分析所有男生的学习成绩,这时只 阅读全文
posted @ 2019-09-25 17:10 单词计数程序大牛 阅读(213) 评论(0) 推荐(0)
摘要: 1. 分布式锁 总结: 其实如果有客户端C、客户端D等N个客户端争抢一个zk分布式锁,原理都是类似的。大家都是上来直接创建一个锁节点下的一个接一个的临时顺序节点,如果自己不是第一个节点,就对自己上一个节点加监听器只要上一个节点释放锁,自己就排到前面去了,相当于是一个排队机制。 而且用临时顺序节点的另 阅读全文
posted @ 2019-09-23 19:45 单词计数程序大牛 阅读(265) 评论(0) 推荐(0)
摘要: 1.HDFS的设计目标 故障的检测和自动快速恢复 数据访问的高吞吐量 支持大文件 一次写入多次查看 移动计算的代价比移动数据代价小 可移植性 2.基本原理 NameNode仅存储元数据:文件系统所有文件的目录树,并跟踪集群中的文件 NameNode不持久化各个块位置的所在的DataNode信息,Da 阅读全文
posted @ 2019-09-22 20:11 单词计数程序大牛 阅读(120) 评论(0) 推荐(0)