五分钟学大数据
侧边栏公告处有公众号【五分钟学大数据】二维码,可放心订阅,文章都会首发在公众号上。
摘要:深入理解Flink底层原理 阅读全文
posted @ 2021-01-26 11:36 五分钟学大数据 阅读(13) 评论(0) 推荐(0) 编辑
摘要:前言 Flink 是流式的、实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时。 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔 阅读全文
posted @ 2021-01-25 20:13 五分钟学大数据 阅读(98) 评论(0) 推荐(0) 编辑
摘要:hive窗口函数/分析函数 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数 阅读全文
posted @ 2021-01-21 21:31 五分钟学大数据 阅读(62) 评论(0) 推荐(0) 编辑
摘要:Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K 阅读全文
posted @ 2021-01-18 12:23 五分钟学大数据 阅读(407) 评论(0) 推荐(2) 编辑
摘要:Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K 阅读全文
posted @ 2021-01-18 11:15 五分钟学大数据 阅读(135) 评论(0) 推荐(1) 编辑
摘要:今天给大家推荐一本大数据领域中必读的一本书,名字叫《大数据日知录-架构与算法》 这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,既包罗万象,又深入浅出。 这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。 像Flink中非常重要的 阅读全文
posted @ 2021-01-17 12:03 五分钟学大数据 阅读(22) 评论(0) 推荐(0) 编辑
摘要:本文首发于公众号:五分钟学大数据 在面试的时候,发现很多面试官特别爱问Kafka相关的问题,这也不难理解,谁让Kafka是大数据领域中消息队列的唯一王者,单机十万级别的吞吐量,毫秒级别的延迟,这种天生的分布式消息队列,谁能不爱? 在最近的一场面试中,有个面试官看到简历中的项目上写Kafka了,就直接 阅读全文
posted @ 2021-01-14 15:45 五分钟学大数据 阅读(67) 评论(0) 推荐(0) 编辑
摘要:HBase简介 HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。 它介于 NoSql 和 RDBMS 之间,仅能通过主键(row key 阅读全文
posted @ 2021-01-14 09:36 五分钟学大数据 阅读(217) 评论(0) 推荐(0) 编辑
摘要:阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。 文章首发于公众号:五分钟学大数据 前言 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数 阅读全文
posted @ 2021-01-12 16:02 五分钟学大数据 阅读(222) 评论(0) 推荐(1) 编辑
摘要:数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。 文章首发公众号:五分钟学大数据,公众号中发送“维度建模”即可获取此书籍第三版电子书 先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书 阅读全文
posted @ 2021-01-11 15:56 五分钟学大数据 阅读(238) 评论(0) 推荐(0) 编辑