首页
新闻
博问
专区
闪存
班级
我的博客
我的园子
账号设置
退出登录
注册
登录
五分钟学大数据
侧边栏公告处有公众号【五分钟学大数据】二维码,可放心订阅,文章都会首发在公众号上。
博客园
首页
博问
闪存
新随笔
订阅
管理
2021年1月26日
Flink 中极其重要的 Time 与 Window 详细解析(深度好文,建议收藏)
摘要:深入理解Flink底层原理
阅读全文
posted @ 2021-01-26 11:36 五分钟学大数据
阅读(13)
评论(0)
推荐(0)
编辑
2021年1月25日
Flink 中极其重要的 Time 与 Window 详细解析(深度好文,建议收藏)
摘要:前言 Flink 是流式的、实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时。 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔
阅读全文
posted @ 2021-01-25 20:13 五分钟学大数据
阅读(98)
评论(0)
推荐(0)
编辑
2021年1月21日
hive窗口函数/分析函数详细剖析
摘要:hive窗口函数/分析函数 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数
阅读全文
posted @ 2021-01-21 21:31 五分钟学大数据
阅读(62)
评论(0)
推荐(0)
编辑
2021年1月18日
Kafka底层原理剖析(近万字建议收藏)
摘要:Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K
阅读全文
posted @ 2021-01-18 12:23 五分钟学大数据
阅读(407)
评论(0)
推荐(2)
编辑
Kafka底层原理剖析(近万字建议收藏)
摘要:Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K
阅读全文
posted @ 2021-01-18 11:15 五分钟学大数据
阅读(135)
评论(0)
推荐(1)
编辑
2021年1月17日
好书推荐--大数据日知录(深入理解大数据的必备书籍)附电子版下载
摘要:今天给大家推荐一本大数据领域中必读的一本书,名字叫《大数据日知录-架构与算法》 这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,既包罗万象,又深入浅出。 这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。 像Flink中非常重要的
阅读全文
posted @ 2021-01-17 12:03 五分钟学大数据
阅读(22)
评论(0)
推荐(0)
编辑
2021年1月14日
大厂面试官竟然这么爱问Kafka,一连八个Kafka问题把我问蒙了?
摘要:本文首发于公众号:五分钟学大数据 在面试的时候,发现很多面试官特别爱问Kafka相关的问题,这也不难理解,谁让Kafka是大数据领域中消息队列的唯一王者,单机十万级别的吞吐量,毫秒级别的延迟,这种天生的分布式消息队列,谁能不爱? 在最近的一场面试中,有个面试官看到简历中的项目上写Kafka了,就直接
阅读全文
posted @ 2021-01-14 15:45 五分钟学大数据
阅读(67)
评论(0)
推荐(0)
编辑
HBase 底层原理详解(深度好文,建议收藏)
摘要:HBase简介 HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。 它介于 NoSql 和 RDBMS 之间,仅能通过主键(row key
阅读全文
posted @ 2021-01-14 09:36 五分钟学大数据
阅读(217)
评论(0)
推荐(0)
编辑
2021年1月12日
九个最容易出错的 Hive sql 详解及使用注意事项
摘要:阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。 文章首发于公众号:五分钟学大数据 前言 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数
阅读全文
posted @ 2021-01-12 16:02 五分钟学大数据
阅读(222)
评论(0)
推荐(1)
编辑
2021年1月11日
数仓建设中最常用模型--Kimball维度建模详解
摘要:数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。 文章首发公众号:五分钟学大数据,公众号中发送“维度建模”即可获取此书籍第三版电子书 先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书
阅读全文
posted @ 2021-01-11 15:56 五分钟学大数据
阅读(238)
评论(0)
推荐(0)
编辑
下一页