摘要: ​ 数据中台到底是什么,几年过去了,也一直众说纷纭。 笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。 数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋 阅读全文
posted @ 2022-01-11 09:35 五分钟学大数据 阅读(415) 评论(0) 推荐(1) 编辑
摘要: Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起 阅读全文
posted @ 2021-12-28 09:11 五分钟学大数据 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦! 注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。 阅读全文
posted @ 2021-12-23 16:09 五分钟学大数据 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的 阅读全文
posted @ 2021-12-14 11:28 五分钟学大数据 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_nam 阅读全文
posted @ 2021-11-30 14:40 五分钟学大数据 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 面试吹牛之前先打个草稿! 各位面试官好! 我叫 xxx,毕业于 xxx,之前在 xxx 公司待了 1 年多,期间⼀直从事的是 IT 行业,刚开始的时候做的是 Java 开发后来转岗到大数据方向做大数据开发; 刚转行到大数据开发的时候开始比较困难的,大数据并不像 Java 那样⼀套框架基本可以搞定所有 阅读全文
posted @ 2021-11-24 11:39 五分钟学大数据 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等! 目录: 一、数据模型架构原则 数仓分层原则主题域划分原则数据模型设计原则 二、数仓公共开发规范 层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处 阅读全文
posted @ 2021-11-11 12:22 五分钟学大数据 阅读(905) 评论(0) 推荐(2) 编辑
摘要: Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将 阅读全文
posted @ 2021-11-05 13:53 五分钟学大数据 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 1. Flink 程序结构 Flink 程序的基本构建块是流和转换(请注意,Flink 的 DataSet API 中使用的 DataSet 也是内部流 )。从概念上讲,流是(可能永无止境的)数据记录流,而转换是将一个或多个流作为一个或多个流的操作。输入,并产生一个或多个输出流。 Flink 应用程 阅读全文
posted @ 2021-11-04 13:58 五分钟学大数据 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 本文目录: 一、消息队列 Apache Pulsar Pulsar 与 Kafka 对比 二、Kafka基础 三、Kafka架构及组件 四、Kafka集群操作 五、Kafka的JavaAPI操作 六、Kafka中的数据不丢失机制 七、Kafka配置文件说明 八、CAP理论 九、Kafka中的CAP机 阅读全文
posted @ 2021-10-27 14:15 五分钟学大数据 阅读(129) 评论(0) 推荐(1) 编辑