摘要: 阅读全文
posted @ 2024-03-01 14:46 ChavinKing 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 提出问题?如果要你建立数据仓库,你如何确定数据仓库核心结构中要设计哪些表?以及表结构如何设计?下面通过问答的形势逐个解释。 Kimball模型设计过程: 1、 选定业务过程-依托业务流程 2、 确定粒度 3、 确定维度 4、 确定事实 问题1:如何确定仓库具有哪些维度表? 回答: 以有报表 业务人员 阅读全文
posted @ 2021-02-25 13:20 ChavinKing 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 一、数据仓库设计目标 1、层级结构清晰,设计合理、且具备应对变化的条件,数据摆放合理,遵从软件工程设计理论高內聚、低耦合原则,尽量避免ods直接产出报表;逻辑库划分结构清晰(为了合理组织数据,可以适当建立一些逻辑数据库)。 2、数据一致性(通过总线架构构建一致性维度和一致性事实)的保证,避免信息孤岛 阅读全文
posted @ 2021-02-25 12:59 ChavinKing 阅读(716) 评论(0) 推荐(0) 编辑
摘要: Spark RDD:TransformationMeaningmap(func)返回一个新的分布式数据集,该数据集是通过将源的每个元素传递给函数func处理形成的。filter(func)返回一个新的数据集,该数据集是通过func处理后在其上返回true 的源元素形成的。flatMap(func)与map相似,但是每个输入项都可以映射成0个或多个输出项(因此func应该返回Seq而不是单个项)。m... 阅读全文
posted @ 2020-02-28 02:11 ChavinKing 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 在日常数据处理过程中避免不了要计算跨长周期数据指标统计需求,类似于如下: 1、 统计每个城市(过去30天)用户浏览次数; 统计每个城市(本年)用户浏览次数; 统计每个城市(历史至今)用户浏览次数; 2、统计每个城市(过去30天|本年|历史至今)交易用户数; 3、数据集部分数据行存在状态变化数据指标需 阅读全文
posted @ 2019-12-10 17:07 ChavinKing 阅读(773) 评论(0) 推荐(0) 编辑
摘要: 报错如下:Maven install失败Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project autotest_fchtgl: Compilation failure[ERROR] No compiler is provided i... 阅读全文
posted @ 2019-01-23 17:46 ChavinKing 阅读(2121) 评论(0) 推荐(0) 编辑
摘要: 1、java版本(spark-2.1.0)package chavin.king;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2... 阅读全文
posted @ 2019-01-11 06:18 ChavinKing 阅读(634) 评论(0) 推荐(0) 编辑
摘要: Superset安装部署 1、安装python环境 superset运行要求python3.6环境 1)安装miniconda 下载地址:https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh 2)安装minicon 阅读全文
posted @ 2019-01-01 22:46 ChavinKing 阅读(3461) 评论(0) 推荐(0) 编辑
摘要: 1、创建测试表:drop table if exists tab_null_operator;create table tab_null_operator as select 1 as id,'chavin' as name union all select 2 as id,'nope' as name union all select 3 as id,'' as name union all s... 阅读全文
posted @ 2018-11-29 16:39 ChavinKing 阅读(4264) 评论(0) 推荐(0) 编辑
摘要: 一、软件环境:操作系统:CentOS release 6.5 (Final)java版本: jdk1.8zookeeper版本: zookeeper-3.4.11kafka 版本: kafka_2.11-1.1.0.tgzmaxwell版本:maxwell-1.16.0.tar.gz注意 : 关闭所有机器的防火墙,同时注意启动可以相互telnet ip 端口二、环境部署1、安装jdkexport ... 阅读全文
posted @ 2018-10-19 17:58 ChavinKing 阅读(3672) 评论(0) 推荐(2) 编辑
摘要: hive的高级数据类型主要包括:数组类型、map类型、结构体类型、集合类型,以下将分别详细介绍。1)数组类型array_type:array-- 建表语句create table test.array_table(name string,age int,addr array)row format delimited fields terminated by ',' collectio... 阅读全文
posted @ 2018-10-11 12:16 ChavinKing 阅读(1192) 评论(0) 推荐(0) 编辑
摘要: 一、ambari及HDP安装文件下载地址:1、系统操作系统:CentOS72、软件本次安装采用最新版本:ambari-2.7.0.0hdp-3.0.0.0详细信息及下载地址如下:Ambari 2.7.0 RepositoriesBase URL :http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0Repo ... 阅读全文
posted @ 2018-10-04 21:44 ChavinKing 阅读(899) 评论(0) 推荐(0) 编辑
摘要: 上一篇解析链接如下:https://www.cnblogs.com/wcwen1990/p/9325968.html1、SQL示例1:SQL> select * from (select * from tmp1 where c >= 1) t1 left join (select * from tmp2 where b 1 and t1.e >= 2 where t1.b =CASE WH... 阅读全文
posted @ 2018-07-20 19:33 ChavinKing 阅读(768) 评论(0) 推荐(0) 编辑
摘要: Java菜鸟教程:http://www.runoob.com/java/java-tutorial.html Java易佰教程:https://www.yiibai.com/html/java/ 阅读全文
posted @ 2018-07-18 13:36 ChavinKing 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 1、测试数据如下:SQL> select * from t1; a | b | c ---+----+--- 1 | 10 | 1 2 | 20 | 2 3 | 30 | 3 4 | 40 | 4 5 | 50 | 5 6 | 60 | 6(6 rows)SQL> select * from t2; a | b | d ---+----+--- 1 | 10 | 1 2 |... 阅读全文
posted @ 2018-07-17 21:15 ChavinKing 阅读(279) 评论(0) 推荐(0) 编辑