会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
Zhbeii
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
21
下一页
2022年1月14日
shell中单双引号区别
摘要: 教程:https://zhuanlan.zhihu.com/p/264346586 (1)单引号不取变量值 (2)双引号取变量值 (3)反引号`,执行引号中命令 (4)双引号内部嵌套单引号,取出变量值 (5)单引号内部嵌套双引号,不取出变量值
阅读全文
posted @ 2022-01-14 10:48 Zhbeii
阅读(41)
评论(0)
推荐(0)
2022年1月13日
数据仓库建模
摘要: ODS层 是原始数据,存储总HDFS上 保持原数据不做修改,起到备份数据的作用 压缩数据,减少磁盘存储空间(lzo) 创建分区表,防止后续的全表扫描 LZO压缩: 解压速度非常快 允许在压缩部分以损失压缩速度为代价提高压缩率,解压速度不会降低。 算法无损,线程安全 DIM和DWD层 需构建维度模型,
阅读全文
posted @ 2022-01-13 23:32 Zhbeii
阅读(161)
评论(0)
推荐(0)
数仓分层及命名
摘要: 分层 为什么要分层 把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题 减少重复的开发:规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性 隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开 数仓命名规范 表命名
阅读全文
posted @ 2022-01-13 21:31 Zhbeii
阅读(533)
评论(0)
推荐(0)
离线数仓使用Sqoop导入导出数据
摘要: Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-stri
阅读全文
posted @ 2022-01-13 17:55 Zhbeii
阅读(92)
评论(0)
推荐(0)
Sqoop
摘要: sqoop 是“Hadoop中的各种存储系统(HDFS、HIVE、HBASE) 和关系数据库(mysql、oracle、sqlserver等)服务器之间传送数据”的工具。 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从
阅读全文
posted @ 2022-01-13 17:34 Zhbeii
阅读(50)
评论(0)
推荐(0)
SKU 和 SPU
摘要: SPU:Xiaomi12 SKU:颜色+内存+网络 Xiaomi12 SKU = Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号 SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、
阅读全文
posted @ 2022-01-13 17:20 Zhbeii
阅读(106)
评论(0)
推荐(0)
SparkStream kafka direct
摘要: https://blog.csdn.net/erfucun/article/details/52275369 https://blog.csdn.net/matrix_google/article/details/80033524
阅读全文
posted @ 2022-01-13 11:25 Zhbeii
阅读(18)
评论(0)
推荐(0)
2022年1月10日
SQL21 查找在职员工自入职以来的薪水涨幅情况
摘要: SQL21 查找在职员工自入职以来的薪水涨幅情况 select b.emp_no,(b.salary-a.salary) as growth from (select e.emp_no,s.salary from employees e left join salaries s on e.emp_n
阅读全文
posted @ 2022-01-10 10:01 Zhbeii
阅读(50)
评论(0)
推荐(0)
RDD
摘要: RDD的基本性质 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。 弹性 存储的弹性:内存与磁盘的自动切换 容错的弹性:数据丢失可以自动恢复 计算的弹性:计算出错重试机制 分片的弹性:可根据需要重新分片 分布式 数据集
阅读全文
posted @ 2022-01-10 09:46 Zhbeii
阅读(402)
评论(0)
推荐(0)
Spark的Driver和Executor
摘要: Spark 框架有两个核心组件:Driver和Executor **Driver:**驱动整个应用运行起来的程序,也叫Driver类 将用户程序转化为作业(job) 在 Executor 之间调度任务(task) 跟踪 Executor 的执行情况 通过 UI 展示查询运行情况 Executor:
阅读全文
posted @ 2022-01-10 08:38 Zhbeii
阅读(1415)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
21
下一页
公告