摘要: 1.通俗的说就是数据的准确性,是数据的基石 2.主要痛点:如何上报和答复? 数据链路没有卡点管控 3.数据质量应该包含: 基础DQC检测,监控预警 数据任务基线SLA 质量问题上报与跟踪系统(看板等) DQC: (DQC是数据质量监控,运行与任务后续,并提供告警功能) 也可以整体批量控制: CREA 阅读全文
posted @ 2024-06-18 16:47 ---江北 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 1.建立指标门户,指标地图,指标检索,指标录入等 2.指标收口在哪?建议在数仓,包括相关的平台建设 3.指标标准:数据来源一致 口径一致,都在ads dws统一(计算的SQL,group by的字段等) 指标类型:原子指标:不可再分的度量值,交易用户数等 派生指标:原子+业务限定+统计周期+统计粒度 阅读全文
posted @ 2024-06-18 14:33 ---江北 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 1.元数据:关于数据的数据 2.元数据分类: 主题域 英文名称 主题域前缀 描述 成本域 cost cost 表和目录的存储消耗,任务的计算资源消耗。 权限域 authority auth dataworks数据访问权限申请记录,冗余权限统计。 任务域 task task dataworks任务,M 阅读全文
posted @ 2024-06-17 10:49 ---江北 阅读(3) 评论(0) 推荐(0) 编辑
摘要: ODPS优化:https://developer.aliyun.com/article/1491341?spm=a2c6h.12883283.index.78.5f1f4307BJr7k3 https://help.aliyun.com/zh/maxcompute/user-guide/use-lo 阅读全文
posted @ 2024-05-30 16:07 ---江北 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 参考:https://www.cnblogs.com/zhang-jun-jie/p/9273721.html 待补充 阅读全文
posted @ 2021-08-26 11:41 ---江北 阅读(47) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-06-07 16:36 ---江北 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-04-05 16:49 ---江北 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 面试清单 1.开场 1)简单自我介绍 2)课程、自学内容介绍 2.技术问 0)简历问题浏览 1)对大数据的了解、对数据仓库的了解 Java: 面向对象3个特征 1.==和equals的区别 == 对于基本类型来说是值比较,对于引用类型来说是比较的是引用;而 equals 默认情况下是引用比较,只是很 阅读全文
posted @ 2021-03-29 15:26 ---江北 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 一、概述 状态的分类: 状态的概念: 两种状态的介绍: 二、两种状态 1.算子状态: 算子状态的数据结构: 不过,实际运用中,都是使用键控状态居多! 2.键控状态 键控状态的数据结构: 代码中使用示例: 3.状态后端 访问存储状态的组件: 可供选择的状态后端: 阅读全文
posted @ 2020-11-05 09:31 ---江北 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 一、窗口概述 窗口的概念:用来将无限流切分为有限流,分发到有限大小的桶中进行处理 窗口的分类:大致分为时间窗口和计数窗口 窗口的边界:左闭右开 二、窗口介绍 1.滚动时间窗口 由固定的窗口长度控制,不会有重叠 2.滑动时间窗口 由窗口size和滑动距离控制,元素会有重叠,当然,步长=size的时候, 阅读全文
posted @ 2020-11-02 10:12 ---江北 阅读(592) 评论(0) 推荐(0) 编辑
TOP