Zhbeii

2022年1月14日

摘要：教程:https://zhuanlan.zhihu.com/p/264346586 （1）单引号不取变量值（2）双引号取变量值（3）反引号`，执行引号中命令（4）双引号内部嵌套单引号，取出变量值（5）单引号内部嵌套双引号，不取出变量值阅读全文

posted @ 2022-01-14 10:48 Zhbeii 阅读(45) 评论(0) 推荐(0)

2022年1月13日

数据仓库建模

摘要： ODS层是原始数据,存储总HDFS上保持原数据不做修改,起到备份数据的作用压缩数据,减少磁盘存储空间(lzo) 创建分区表,防止后续的全表扫描 LZO压缩: 解压速度非常快允许在压缩部分以损失压缩速度为代价提高压缩率，解压速度不会降低。算法无损,线程安全 DIM和DWD层需构建维度模型, 阅读全文

posted @ 2022-01-13 23:32 Zhbeii 阅读(176) 评论(0) 推荐(0)

数仓分层及命名

摘要：分层为什么要分层把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题减少重复的开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开数仓命名规范表命名阅读全文

posted @ 2022-01-13 21:31 Zhbeii 阅读(542) 评论(0) 推荐(0)

离线数仓使用Sqoop导入导出数据

摘要： Hive中的Null在底层是以“\N”来存储，而MySQL中的Null在底层就是Null，为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-stri 阅读全文

posted @ 2022-01-13 17:55 Zhbeii 阅读(100) 评论(0) 推荐(0)

Sqoop

摘要： sqoop 是“Hadoop中的各种存储系统（HDFS、HIVE、HBASE）和关系数据库（mysql、oracle、sqlserver等）服务器之间传送数据”的工具。导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从阅读全文

posted @ 2022-01-13 17:34 Zhbeii 阅读(53) 评论(0) 推荐(0)

SKU 和 SPU

摘要： SPU:Xiaomi12 SKU:颜色+内存+网络 Xiaomi12 SKU = Stock Keeping Unit（库存量基本单位）。现在已经被引申为产品统一编号的简称，每种产品均对应有唯一的SKU号 SPU（Standard Product Unit）：是商品信息聚合的最小单位，是一组可复用、阅读全文

posted @ 2022-01-13 17:20 Zhbeii 阅读(107) 评论(0) 推荐(0)

SparkStream kafka direct

摘要： https://blog.csdn.net/erfucun/article/details/52275369 https://blog.csdn.net/matrix_google/article/details/80033524 阅读全文

posted @ 2022-01-13 11:25 Zhbeii 阅读(19) 评论(0) 推荐(0)

2022年1月10日

SQL21 查找在职员工自入职以来的薪水涨幅情况

摘要： SQL21 查找在职员工自入职以来的薪水涨幅情况 select b.emp_no,(b.salary-a.salary) as growth from (select e.emp_no,s.salary from employees e left join salaries s on e.emp_n 阅读全文

posted @ 2022-01-10 10:01 Zhbeii 阅读(54) 评论(0) 推荐(0)

RDD

摘要： RDD的基本性质 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。弹性存储的弹性：内存与磁盘的自动切换容错的弹性：数据丢失可以自动恢复计算的弹性：计算出错重试机制分片的弹性：可根据需要重新分片分布式数据集阅读全文

posted @ 2022-01-10 09:46 Zhbeii 阅读(411) 评论(0) 推荐(0)

Spark的Driver和Executor

摘要： Spark 框架有两个核心组件:Driver和Executor **Driver:**驱动整个应用运行起来的程序,也叫Driver类将用户程序转化为作业（job）在 Executor 之间调度任务(task) 跟踪 Executor 的执行情况通过 UI 展示查询运行情况 Executor: 阅读全文

posted @ 2022-01-10 08:38 Zhbeii 阅读(1425) 评论(0) 推荐(0)

Loading

公告