随笔分类 - 大数据
数仓建模、数据仓库
摘要:衡量离散程度的指标 极差:一组数据中,最大值与最小值的差 方差:一组数据中,每一个元素与均值偏里的大小 标准差:方差的开方
阅读全文
摘要:Schema定义 ODS层 ods_业务系统名_业务系统里的schema名(如ods_lps_kkb_cloud_passport) DM层 应用层 DWD层 数据清洗层,去重,标准化,数据补齐。 可以基于ER建模和维度建模。 DWS层 数据汇总与过程表维度表 TEMP层 临时表 DIM表 公共维度
阅读全文
摘要:大数据技术栈全貌 下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HD
阅读全文
摘要:从低往高层: ODS>DWD,DWS>DM ODS:Operation Data Store 原始数据,业务库数据,日志数据,mongodb等数据源,api抓取,gio DWD(数据清洗/DWI) data warehouse detail 数据明细详情,去除空值,脏数据,超过极限范围的 明细解析
阅读全文
摘要:在mac下搭建pyspark需要安装的有: 1.JAVA JDK 2.Scala 3.apache-spark 4.Hadoop(可选) 5.pyspark 安装上面几个可以选择去官网下载安装包,解压后再自行配置环境变量。也可以选择使用brew进行安装,比较方便的一种安装方式以下介绍brew的安装方
阅读全文
6 
浙公网安备 33010602011771号