2022年4月10日

|NO.Z.00066|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 15:02 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00064|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|调度系统Airflow|入门案例HelloWorld|

摘要: 一、Airflow核心概念 ### Airflow核心概念 ~~~ DAGs:有向无环图(Directed Acyclic Graph),将所有需要运行的tasks按照依赖关系组织起来, ~~~ 描述的是所有tasks执行的顺序; ### Operators:Airflow内置了很多operator 阅读全文

posted @ 2022-04-10 15:01 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00065|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|调度系统Airflow|核心交易|调度任务集成|

摘要: 一、核心交易调度脚本的角度顺序 ### 核心交易分析 ~~~ depends_on_past ,设置为True时,上一次调度成功了,才可以触发。 # 加载ODS数据(DataX迁移数据) /data/yanqidw/script/trade/ods_load_trade.sh # 加载DIM层数据 阅读全文

posted @ 2022-04-10 15:01 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00062|——————————|^^ 配置 ^^|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|调度系统Airflow|禁用默认|DAG任务|

摘要: 一、Airflow.UI界面概述 ### Airflow.UI界面概述 ~~~ Trigger Dag:人为执行触发 ~~~ Tree View:当dag执行的时候,可以点入,查看每个task的执行状态(基于树状视图)。 ~~~ 状态:success、running、failed、skipped、r 阅读全文

posted @ 2022-04-10 15:00 yanqi_vip 阅读(61) 评论(0) 推荐(0)

|NO.Z.00063|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|调度系统Airflow|crontab|简介案例|

摘要: 一、crontab ### Crontab简介 ~~~ Linux 系统则是由 cron (crond) 这个系统服务来控制的。 ~~~ Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。 ~~~ Linux 系统也提供了Linux用户控制计划任务的命令:crontab 阅读全文

posted @ 2022-04-10 15:00 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00060|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|调度系统Airflow|安装部署|

摘要: 一、Airflow安装部署 ### 安装依赖 ~~~ CentOS 7.X ~~~ Python 3.5或以上版本(推荐) ~~~ MySQL 5.7.x ~~~ Apache-Airflow 1.10.11 ~~~ 虚拟机可上网,需在线安装包 ### 后面要安装的三个软件Airflow、Atlas 阅读全文

posted @ 2022-04-10 14:59 yanqi_vip 阅读(70) 评论(0) 推荐(0)

|NO.Z.00061|——————————|^^ 配置 ^^|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|调度系统Airflow|修改默认时区|

摘要: 一、修改时区 ### 修改时区 ~~~ Airflow默认使用UTC时间,在中国时区需要用+8小时。 ~~~ 将UTC修改为中国时区,需要修改Airflow源码。 ### 在修改 $AIRFLOW_HOME/airflow.cfg 文件 (env) [root@hadoop02 ~]# vim /o 阅读全文

posted @ 2022-04-10 14:59 yanqi_vip 阅读(104) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|调度系统Airflow|简介|

摘要: 一、任务调度系统Airflow ### Airflow简介 ~~~ Airflow 是 Airbnb 开源的一个用 Python 编写的调度工具。 ~~~ 于 2014 年启动,2015年春季开源,2016 年加入 Apache 软件基金会的孵化计划。 ~~~ Airflow将一个工作流制定为一组任 阅读全文

posted @ 2022-04-10 14:58 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&PB级数仓.V15|——|PB数仓.v15|核心交易分析|脚本执行顺序|

摘要: 一、数据导出 ### 数据导出 ~~~ ads.ads_trade_order_analysis 分区表,使用DataX导出到MySQL 二、小结 ### 脚本调用次序: ~~~ # 加载ODS数据(含DataX迁移数据) sh /data/yanqidw/script/trade/ods_load 阅读全文

posted @ 2022-04-10 14:57 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:57 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00056|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V14|——|PB数仓.v14|核心交易分析|ADS层建表|加载数据|

摘要: 一、ADS层开发 ### 需求:计算当天 ~~~ 全国所有订单信息 ~~~ 全国、一级商品分类订单信息 ~~~ 全国、二级商品分类订单信息 ~~~ 大区所有订单信息 ~~~ 大区、一级商品分类订单信息 ~~~ 大区、二级商品分类订单信息 ~~~ 城市所有订单信息 ~~~ 城市、一级商品分类订单信息 阅读全文

posted @ 2022-04-10 14:56 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00055|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V13|——|PB数仓.v13|核心交易分析|DWS层建表|加载数据|

摘要: 一、DWS层建表及数据加载说明 ### DIM、DWD => 数据仓库分层、数据仓库理论 ~~~ # 需求:计算当天 ~~~ 全国所有订单信息 ~~~ 全国、一级商品分类订单信息 ~~~ 全国、二级商品分类订单信息 ~~~ 大区所有订单信息 ~~~ 大区、一级商品分类订单信息 ~~~ 大区、二级商品 阅读全文

posted @ 2022-04-10 14:55 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00053|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V11|——PB数仓.v11|核心交易分析|DIM层建表|加载数据|

摘要: 一、DIM层建表加载数据:DIM层建表加载数据概述 ### 首先要确定哪些是事实表、哪些是维表。绿色的是事实表,灰色的维表 ~~~ 用什么方式处理维表,每日快照、拉链表? ~~~ 小表使用每日快照:产品分类表、商家店铺表、商家地域组织表、支付方式表 ~~~ 大表使用拉链表:产品信息表 二、DIM层建 阅读全文

posted @ 2022-04-10 14:54 yanqi_vip 阅读(64) 评论(0) 推荐(0)

|NO.Z.00054|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V12|——|PB数仓.v12|核心交易分析|DWD层建表|加载数据|

摘要: 一、DWD层建表加载数据说明 ### 要处理的表有两张:订单表、订单产品表。其中: ~~~ 订单表是周期性事实表;为保留订单状态,可以使用拉链表进行处理; ~~~ 订单产品表普通的事实表,用常规的方法进行处理; ~~~ 如果有数据清洗、数据转换的业务需求,ODS => DWD ~~~ 如果没有数据清 阅读全文

posted @ 2022-04-10 14:54 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00052|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V10|——|PB数仓.v10|周期性事实表|实现小结|

摘要: 一、周期性事实表:有如下订单表,6月20号有3条记录(001/002/003): 订单创建日期 订单编号 订单状态 2020-06-20 001 创建订单 2020-06-20 002 创建订单 2020-06-20 003 支付完成 6月21日,表中有5条记录。其中新增2条记录(004/005), 阅读全文

posted @ 2022-04-10 14:53 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00051|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V09|——|PB数仓.v09|拉链表实现|拉链表回滚|

摘要: 一、拉链表的回滚:数据 ### 06-20拉链表数据(sh xxx.sh 2020-06-20;在2020-06-21日凌晨发出命令): ~~~ # 06-20拉链表数据(sh xxx.sh 2020-06-20;在2020-06-21日凌晨发出命令): 001 13551111111 2020-0 阅读全文

posted @ 2022-04-10 14:52 yanqi_vip 阅读(62) 评论(0) 推荐(0)

|NO.Z.00049|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|拉链表实现|建表加载|测试案例|

摘要: 一、维表拉链表应用案例:维表拉链表案例说明 二、维表拉链表建表加载数据 ### 创建用户信息表 ~~~ 用户信息 DROP TABLE IF EXISTS test.userinfo; CREATE TABLE test.userinfo( userid STRING COMMENT '用户编号', 阅读全文

posted @ 2022-04-10 14:51 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00050|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V08|——|PB数仓.v08|拉链表实现|构建拉链表|

摘要: 一、构建拉链表 ### 拉链表的实现 ~~~ userinfo(分区表) => userid、mobile、regdate => ~~~ 每日变更的数据(修改的+新增的) / 历史数据(第一天) ~~~ userhis(拉链表)=> 多了两个字段 start_date / end_date 二、拉链 阅读全文

posted @ 2022-04-10 14:51 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00048|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|核心交易分析|缓慢变化|维度处理|

摘要: 一、缓慢变化维与周期性事实表 ### 缓慢变化维 ~~~ 缓慢变化维(SCD;Slowly Changing Dimensions)。 ~~~ 在现实世界中,维度的属性随着时间的流失发生缓慢的变化 ~~~ 缓慢是相对事实表而言,事实表数据变化的速度比维度表快。 ~~~ 处理维度表的历史变化信息的问题 阅读全文

posted @ 2022-04-10 14:50 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00046|——————————|^^ 数据 ^^|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|核心交易分析|增量数据导入|

摘要: 一、增量数据导入 ### 增量数据导入概述 ~~~ # 3张增量表: ~~~ 订单表 yanqi_trade_orders ~~~ 订单产品表 yanqi_order_produce ~~~ 产品信息表 yanqi_product_info ~~~ 初始数据装载(执行一次); ~~~ 可以将前面的全 阅读全文

posted @ 2022-04-10 14:50 yanqi_vip 阅读(33) 评论(0) 推荐(0)

导航