上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 69 下一页

2022年4月11日

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&Scala.V09|——|Scala.v09|Scala编程|块表达式|赋值语句|

摘要: 一、块表达式和赋值语句 ### 块表达式和赋值语句 ~~~ {} 块包含一系列表达式,其结果也是一个表达式,块中最后一个表达式的值就是块的值。 ~~~ 赋值语句返回Unit类型,代表没有值; ### 编程需求 val x1 = 1 val y1 = 1 val x2 = 0 val y2 = 0 v 阅读全文

posted @ 2022-04-11 19:34 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&Scala.V10|——|Scala.v10|Scala编程|输入输出|

摘要: 一、输入和输出 ### 输入输出说明 ~~~ 通过readLine 从控制台读取一行输入。 ~~~ 如果要读取数字、Boolean或者字符, ~~~ 可以用readInt、readDouble、readByte、readShort、readLong、readFloat、readBoolean或者re 阅读全文

posted @ 2022-04-11 19:34 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&Scala.V07|——|Scala.v07|Scala编程|值与变量|自动类型推断|

摘要: 一、值与变量&自动类型推断 ### Scala当中的声明变量可以使用以下两种方式: ~~~ val,值 -- value,用val定义的变量,值是不可变的 ~~~ var,变量 -- variable,用var定义的变量,值是可变的 ### 在Scala中,鼓励使用val。大多数程序并不需要那么多的 阅读全文

posted @ 2022-04-11 19:33 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——|Hadoop&Scala.V08|——|Scala.v08|Scala编程|操作符|

摘要: 一、操作符 ### 操作符 ~~~ Scala的算术操作符、位操作符与 Java中的效果一样的。 ~~~ 需要特别注意一点:Scala中的操作符都是方法 ~~~ 书写时推荐使用:a + b 、1 to 10这种代码风格。 ~~~ Scala 没有提供 ++、-- 操作符,但是可以使用+=、-= ## 阅读全文

posted @ 2022-04-11 19:33 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&Scala.V06|——|Scala.v06|Scala编程|类层次结构|

摘要: 一、类层次结构 ## 类层次结构 ~~~ # Scala中,所有的类,包括值类型和引用类型,都最终继承自一个统一的根类型Any。 ~~~ # Scala中定义了以下三个底层类: ~~~ Any是所有类型共同的根类型,Any是AnyRef和AnyVal的超类 ~~~ AnyRef是所有引用类型的超类 阅读全文

posted @ 2022-04-11 19:32 yanqi_vip 阅读(70) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&Scala.V05|——|Scala.v05|Scala编程|常用类型|字面值|

摘要: 一、常用类型与字面量 数据类型 描述 Byte 8位有符号补码整数。数值区间为 -128 到 127 Short 16位有符号补码整数。数值区间为 -32768 到 32767 Int 32位有符号补码整数。数值区间为 -2147483648 到 2147483647 Long 64位有符号补码整数 阅读全文

posted @ 2022-04-11 19:31 yanqi_vip 阅读(90) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&Scala.V04|——|Scala.v04|Scala编程|基本语法|

摘要: 一、基础语法 ### 基础语法规则: ~~~ # 区分大小写 ~~~ Scala语言对大小写敏感; ~~~ # 类名 ~~~ 对于所有的类名的第一个字母要大写。 ~~~ 如果需要使用几个单词来构成一个类名,每个单词的第一个字母要大写;比如:ListDemo ~~~ # 方法名 ~~~ 所有方法名的第 阅读全文

posted @ 2022-04-11 19:30 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00002|——————————|BigDataEnd|——|Hadoop&Scala.V02|——|Scala.v02|Scala基础|语言概况|

摘要: 一、Scala基础 ### Scala语言概况:Scala语言起源 ~~~ 马丁·奥德斯基(Martin Odersky)是编译器及编程的狂热爱好者。 ~~~ 主流JVM的Javac编译器就是马丁·奥德斯基编写出来的,JDK5.0、JDK8.0的编译器就是他写的。 ~~~ 长时间的编程之后,他希望发 阅读全文

posted @ 2022-04-11 19:29 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00003|——————————|^^ 部署 ^^|——|Hadoop&Scala.V03|——|Scala.v03|Scala编程|编程环境|

摘要: 一、scala官网地址 ### Scala资源地址 ~~~ Scala官网:https://www.scala-lang.org/ ~~~ 下载Scala:Windows下安装Scala ~~~ 配置IDEA开发环境:REPL 二、windows下环境配置说明 ### 下载scala版本包 ~~~ 阅读全文

posted @ 2022-04-11 19:29 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&Scala.V01|——|Scala.v01|实验大纲|

摘要: 一、Scala编程: ### 课程目标: ~~~ 熟练使用Scala进行Spark开发 ~~~ 为阅读Spark内核源码做准备 二、课程内容: ### 课程内容: ~~~ 第一部分 Scala基础 ~~~ 第二部分 控制结构和函数 ~~~ 第三部分 数组和元组 ~~~ 第四部分 类与对象 ~~~ 第 阅读全文

posted @ 2022-04-11 19:28 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-11 19:27 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00078|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-11 19:26 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-11 19:26 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00076|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|数据可视化|

摘要: 一、数据可视化 ### 数据可视化 ~~~ ADS => DataX => MySQL => 浏览器呈现 ~~~ 对统计数据进行展示一般都是以图、表方式呈现; ~~~ 常见方式有 ECharts、HighCharts、G2、Chart.js 、FineBI等。 ~~~ 本项目使用SSM(Spring 阅读全文

posted @ 2022-04-11 19:25 yanqi_vip 阅读(14) 评论(0) 推荐(0)

|NO.Z.00077|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|总结|

摘要: 一、项目总结与回顾 ## 数据仓库概念 ~~~ 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 ~~~ OLAP(数据仓库)与OLTP(数据库)的区别; ~~~ 数据仓库分层:ODS、DWD、DWS、ADS ## 为什么要分层: ~~~ 清晰的数据结构 ~~ 阅读全文

posted @ 2022-04-11 19:25 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00074|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|Griffin数据质量监控工具|Griffin部署|

摘要: 一、Griffin编译准备 ### 软件解压缩 [root@hadoop02 ~]# ls /opt/yanqi/software/griffin-griffin-0.5.0.zip /opt/yanqi/software/griffin-griffin-0.5.0.zip [root@hadoop 阅读全文

posted @ 2022-04-11 19:24 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00075|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|Griffin数据质量监控工具|数据质量监控|

摘要: 一、与电商业务集成 ### 数据资产:单击右上角的 DataAssets 来检查数据资产 ~~~ 这里的数据数据资产主要是保存在Hive上的表,要求 Hive Metastore 服务正常 ### 创建 measure ~~~ 如果要测量源和目标之间的匹配率,请选择 Accuracy(精确度验证) 阅读全文

posted @ 2022-04-11 19:24 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00073|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|Griffin数据质量监控工具|部署Griffin&spark&livy&ES|

摘要: 一、安装概述 ### 相关依赖:重点讲解 Griffin,不对依赖组件做过多讲解,所有组件均采用单机模式安装。 ~~~ JDK (1.8 or later versions) ~~~ MySQL(version 5.6及以上) ~~~ Hadoop (2.6.0 or later) ~~~ Hive 阅读全文

posted @ 2022-04-11 19:23 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00072|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|Griffin数据质量监控工具|概述|

摘要: 一、数据质量监控工具:Griffin(扩展) ### 为什么要做数据质量监控:garbage in garbage out ~~~ # 数据不一致 ~~~ 企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的, ~~~ 系统建设时间长短各异,各系统数据标准也不同。 ~~~ 企业业务系统更关注 阅读全文

posted @ 2022-04-11 19:22 yanqi_vip 阅读(73) 评论(0) 推荐(0)

|NO.Z.00071|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-11 19:21 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00070|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|元数据管理工具Atlas|电商业务集成|血缘关系|

摘要: 一、与电商业务集成 ### 电商业务集成环境准备 ~~~ 开发(建库、建表) => 导入数据 => 执行Hive脚本 ~~~ 导入Hive的血缘关系 二、电商业务建表 ### 电商业务建表语句(可省略): ~~~ 创建DataBases; CREATE DATABASE ODS; CREATE DA 阅读全文

posted @ 2022-04-11 19:20 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00068|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|元数据管理工具Atlas|部署配置|账户密码|

摘要: 一、安装环境准备 ### 安装概述说明 ~~~ 重点讲解Atlas,不对Atlas的依赖组件做讲解,组件均采用单机模式安装。 ~~~ 编译才能安装。 ### 安装依赖 ~~~ Maven 3.6.3(完成) ~~~ HBase 1.1.2(不需要安装,需要软件包) ~~~ Solr 5.5.1(不需 阅读全文

posted @ 2022-04-11 19:19 yanqi_vip 阅读(60) 评论(0) 推荐(0)

|NO.Z.00069|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|元数据管理工具Atlas|Hive血缘关系导入|

摘要: 一、Hive血缘关系导入 ### 配置HIVE_HOME环境变量; ~~~ 将atlas服务下atlas-application.properties配置文件拷贝到hive服务目录下 ### 创建软连接: ~~~ 将 $ATLAS_HOME/conf/atlasapplication.propert 阅读全文

posted @ 2022-04-11 19:19 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00067|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|元数据管理工具Atlas|数仓元数据管理|简介|

摘要: 一、元数据管理工具Atlas(扩展) ### 数据仓库元数据管理 ~~~ 元数据(MetaData)狭义的解释是用来描述数据的数据。 ~~~ 广义的来看,除了业务逻辑直接读写处理的那些业务数据, ~~~ 所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。 ~~~ 如数据库中表的Schem 阅读全文

posted @ 2022-04-11 19:18 yanqi_vip 阅读(51) 评论(0) 推荐(0)

2022年4月10日

|NO.Z.00066|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 15:02 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00064|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|调度系统Airflow|入门案例HelloWorld|

摘要: 一、Airflow核心概念 ### Airflow核心概念 ~~~ DAGs:有向无环图(Directed Acyclic Graph),将所有需要运行的tasks按照依赖关系组织起来, ~~~ 描述的是所有tasks执行的顺序; ### Operators:Airflow内置了很多operator 阅读全文

posted @ 2022-04-10 15:01 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00065|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|调度系统Airflow|核心交易|调度任务集成|

摘要: 一、核心交易调度脚本的角度顺序 ### 核心交易分析 ~~~ depends_on_past ,设置为True时,上一次调度成功了,才可以触发。 # 加载ODS数据(DataX迁移数据) /data/yanqidw/script/trade/ods_load_trade.sh # 加载DIM层数据 阅读全文

posted @ 2022-04-10 15:01 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00062|——————————|^^ 配置 ^^|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|调度系统Airflow|禁用默认|DAG任务|

摘要: 一、Airflow.UI界面概述 ### Airflow.UI界面概述 ~~~ Trigger Dag:人为执行触发 ~~~ Tree View:当dag执行的时候,可以点入,查看每个task的执行状态(基于树状视图)。 ~~~ 状态:success、running、failed、skipped、r 阅读全文

posted @ 2022-04-10 15:00 yanqi_vip 阅读(61) 评论(0) 推荐(0)

|NO.Z.00063|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|调度系统Airflow|crontab|简介案例|

摘要: 一、crontab ### Crontab简介 ~~~ Linux 系统则是由 cron (crond) 这个系统服务来控制的。 ~~~ Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。 ~~~ Linux 系统也提供了Linux用户控制计划任务的命令:crontab 阅读全文

posted @ 2022-04-10 15:00 yanqi_vip 阅读(52) 评论(0) 推荐(0)

|NO.Z.00060|——————————|^^ 部署 ^^|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|调度系统Airflow|安装部署|

摘要: 一、Airflow安装部署 ### 安装依赖 ~~~ CentOS 7.X ~~~ Python 3.5或以上版本(推荐) ~~~ MySQL 5.7.x ~~~ Apache-Airflow 1.10.11 ~~~ 虚拟机可上网,需在线安装包 ### 后面要安装的三个软件Airflow、Atlas 阅读全文

posted @ 2022-04-10 14:59 yanqi_vip 阅读(70) 评论(0) 推荐(0)

|NO.Z.00061|——————————|^^ 配置 ^^|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|调度系统Airflow|修改默认时区|

摘要: 一、修改时区 ### 修改时区 ~~~ Airflow默认使用UTC时间,在中国时区需要用+8小时。 ~~~ 将UTC修改为中国时区,需要修改Airflow源码。 ### 在修改 $AIRFLOW_HOME/airflow.cfg 文件 (env) [root@hadoop02 ~]# vim /o 阅读全文

posted @ 2022-04-10 14:59 yanqi_vip 阅读(104) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|调度系统Airflow|简介|

摘要: 一、任务调度系统Airflow ### Airflow简介 ~~~ Airflow 是 Airbnb 开源的一个用 Python 编写的调度工具。 ~~~ 于 2014 年启动,2015年春季开源,2016 年加入 Apache 软件基金会的孵化计划。 ~~~ Airflow将一个工作流制定为一组任 阅读全文

posted @ 2022-04-10 14:58 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&PB级数仓.V15|——|PB数仓.v15|核心交易分析|脚本执行顺序|

摘要: 一、数据导出 ### 数据导出 ~~~ ads.ads_trade_order_analysis 分区表,使用DataX导出到MySQL 二、小结 ### 脚本调用次序: ~~~ # 加载ODS数据(含DataX迁移数据) sh /data/yanqidw/script/trade/ods_load 阅读全文

posted @ 2022-04-10 14:57 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:57 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00056|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V14|——|PB数仓.v14|核心交易分析|ADS层建表|加载数据|

摘要: 一、ADS层开发 ### 需求:计算当天 ~~~ 全国所有订单信息 ~~~ 全国、一级商品分类订单信息 ~~~ 全国、二级商品分类订单信息 ~~~ 大区所有订单信息 ~~~ 大区、一级商品分类订单信息 ~~~ 大区、二级商品分类订单信息 ~~~ 城市所有订单信息 ~~~ 城市、一级商品分类订单信息 阅读全文

posted @ 2022-04-10 14:56 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00055|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V13|——|PB数仓.v13|核心交易分析|DWS层建表|加载数据|

摘要: 一、DWS层建表及数据加载说明 ### DIM、DWD => 数据仓库分层、数据仓库理论 ~~~ # 需求:计算当天 ~~~ 全国所有订单信息 ~~~ 全国、一级商品分类订单信息 ~~~ 全国、二级商品分类订单信息 ~~~ 大区所有订单信息 ~~~ 大区、一级商品分类订单信息 ~~~ 大区、二级商品 阅读全文

posted @ 2022-04-10 14:55 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00053|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V11|——PB数仓.v11|核心交易分析|DIM层建表|加载数据|

摘要: 一、DIM层建表加载数据:DIM层建表加载数据概述 ### 首先要确定哪些是事实表、哪些是维表。绿色的是事实表,灰色的维表 ~~~ 用什么方式处理维表,每日快照、拉链表? ~~~ 小表使用每日快照:产品分类表、商家店铺表、商家地域组织表、支付方式表 ~~~ 大表使用拉链表:产品信息表 二、DIM层建 阅读全文

posted @ 2022-04-10 14:54 yanqi_vip 阅读(64) 评论(0) 推荐(0)

|NO.Z.00054|——————————|^^ 实验 ^^|——|Hadoop&PB级数仓.V12|——|PB数仓.v12|核心交易分析|DWD层建表|加载数据|

摘要: 一、DWD层建表加载数据说明 ### 要处理的表有两张:订单表、订单产品表。其中: ~~~ 订单表是周期性事实表;为保留订单状态,可以使用拉链表进行处理; ~~~ 订单产品表普通的事实表,用常规的方法进行处理; ~~~ 如果有数据清洗、数据转换的业务需求,ODS => DWD ~~~ 如果没有数据清 阅读全文

posted @ 2022-04-10 14:54 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00052|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V10|——|PB数仓.v10|周期性事实表|实现小结|

摘要: 一、周期性事实表:有如下订单表,6月20号有3条记录(001/002/003): 订单创建日期 订单编号 订单状态 2020-06-20 001 创建订单 2020-06-20 002 创建订单 2020-06-20 003 支付完成 6月21日,表中有5条记录。其中新增2条记录(004/005), 阅读全文

posted @ 2022-04-10 14:53 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00051|——————————|^^ 案例 ^^|——|Hadoop&PB级数仓.V09|——|PB数仓.v09|拉链表实现|拉链表回滚|

摘要: 一、拉链表的回滚:数据 ### 06-20拉链表数据(sh xxx.sh 2020-06-20;在2020-06-21日凌晨发出命令): ~~~ # 06-20拉链表数据(sh xxx.sh 2020-06-20;在2020-06-21日凌晨发出命令): 001 13551111111 2020-0 阅读全文

posted @ 2022-04-10 14:52 yanqi_vip 阅读(62) 评论(0) 推荐(0)

上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 69 下一页

导航