摘要:
今日内容:1) HDFS基本的概念 架构中相关的机制 -- 理解2) HDFS的shell命令的操作: --唯一的操作 3) HDFS的基本原理: 4) hdfs的工作机制: 记忆 (能够拿自己的话出来) hdfs的写数据的流程 hdfs的读数据的流程5) hdfs的元数据辅助管理机制 记忆 1) 阅读全文
posted @ 2020-11-12 21:14
十一vs十一
阅读(399)
评论(0)
推荐(0)
摘要:
第一章 Flink简介 1.1 初识Flink Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化 阅读全文
posted @ 2020-11-12 16:58
十一vs十一
阅读(654)
评论(0)
推荐(0)
摘要:
第1章 项目需求及架构设计1.1 项目需求分析 一、数据采集平台搭建 二、Kafka、Zookeeper中间件准备 三、下游Spark Streaming对接Kafka接收数据,实现vip个数统计、栏目打标签功能、做题正确率与掌握度的实时计算功能。 1.2 项目框架1.2.1 技术选型 一、数据存储 阅读全文
posted @ 2020-11-12 15:59
十一vs十一
阅读(611)
评论(0)
推荐(0)
摘要:
第1章Spark Streaming概念 Spark Streaming 是核心Spark API的扩展,可实现实时数据的可扩展,高吞吐量,容错处理。数据可以从许多来源(如Kafka,Flume,Kinesis,或TCP套接字)中获取,并可以使用高级函数进行处理,处理完后的数据可以推送到文件系统,数 阅读全文
posted @ 2020-11-12 15:36
十一vs十一
阅读(332)
评论(0)
推荐(0)
摘要:
第1章 数据仓库概念 数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 数据仓库是出于分析报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业务流程改进、监控时间、成本、质量以及控制。 第2章 项目需求及架构设计 2.1 项目需求分析 一、数据采集平台搭建 二、实现数 阅读全文
posted @ 2020-11-12 15:32
十一vs十一
阅读(1180)
评论(0)
推荐(0)
摘要:
第1章 数仓分层概念 1.1 为什么要分层 1.2 数仓命名规范 ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 详见:尚硅谷大数据技术之Hive 2.1 Hive&MySQL安装 2.1. 阅读全文
posted @ 2020-11-12 12:01
十一vs十一
阅读(941)
评论(0)
推荐(0)
摘要:
Table API 和 Flink SQL 第一章 整体介绍 1.1 什么是 Table API 和 Flink SQL Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。 目前功能尚未完善,处于活跃的开发阶段。 Table API是一套内嵌在Java 阅读全文
posted @ 2020-11-12 09:48
十一vs十一
阅读(3278)
评论(0)
推荐(0)
摘要:
尚硅谷大数据技术之电商用户行为分析 第1章 项目整体介绍 1.1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘和分析,得到感兴趣的商业指标并增强对风险的控制。 电商用户行为数据多样,整体可以分为用户行为习惯数据 阅读全文
posted @ 2020-11-12 09:26
十一vs十一
阅读(1688)
评论(0)
推荐(0)
摘要:
第一章 实时需求概览 1 实时需求与离线需求的比较 离线需求,一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。 实时需求,主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性。 2 需求明细 2.1当 阅读全文
posted @ 2020-11-12 09:18
十一vs十一
阅读(488)
评论(0)
推荐(0)
浙公网安备 33010602011771号