08 2020 档案
摘要:用户行为日志分析是实时数据处理很常见的一个应用场景,比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系...
阅读全文
摘要:用户行为日志分析是实时数据处理很常见的一个应用场景,比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系统,包括架构设计与代码实现。本文分享将完整呈现日志分析系统的数据处理链路,通过本文,你可以了解到: 基于discuz搭建一个论坛平台 Flume日志收集系统使用方式 A
阅读全文
摘要:元数据管理是数据仓库的核心,它不仅定义了数据仓库有什么,还指明了数据仓库中数据的内容和位置,刻画了数据的提取和转换规则,存储了与数据...
阅读全文
摘要:SQL 语言无处不在。SQL 已经不仅仅是技术人员的专属技能了,似乎人人都会写SQL,就如同人人都是产品经理一样。如果你是做后台开发...
阅读全文
摘要:实时数仓主要是为了...
阅读全文
摘要:实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然...
阅读全文
摘要:Flink1.11引入了CDC的connector,通过这种方式可以很方便地捕获变化的数据,大大简化了数据处理的流程。Flink1....
阅读全文
摘要:6本文会对HBase的基本原理进行剖析,通过本文你可以了解到: CAP理论NoSQL出现的原因HBase的特点及使用场景HBase的...
阅读全文
摘要:在Ralph Kimball和Margy Ross 的《数据仓库工具包》一书中,提到了数据仓库设计中的10个常见陷阱,本文针对每个陷...
阅读全文
摘要:维表是数仓中的一个概念,维表中的维度属性是观察数据的角度,在建设离线数仓的时候,通常是将维表与事实表进行关联构建星型模型。在实时数仓...
阅读全文
摘要:LeeCode数据库部分SQL题目总结 176. 第二高的薪水 描述 编写一个 SQL 查询,获取 Employee 表中第二高的...
阅读全文
摘要:在Hive的开窗函数实战的文章中,主要介绍了Hive的分析函数的基本使用。本文是这篇文章的延续,涵盖了Hive所有的条件函数和日期函...
阅读全文
摘要:本文主要介绍Hive的架构和以及HQL的查询阶段,主要内容包括: Hive的架构架构中的相关组件介绍HQL的查询阶段 Hive的架构...
阅读全文
摘要:当我们在使用Flink的时候,避免不了要和时间(time)、水位线(watermarks)打交道,理解这些概念是开发分布式流处理应用...
阅读全文
摘要:Flink总共有三种时间语义:Processing time(处理时间)、Event time(事件时间)以及Ingestion t...
阅读全文
摘要:在Flink Table API & SQL编程指南(1)一文中介绍了Flink Table API &SQL的一些基本的概念和通用...
阅读全文
摘要:SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤...
阅读全文
摘要:本文...
阅读全文
摘要:本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘...
阅读全文
摘要:MLlib是Spark提供的一个机器学习库,通过调用MLlib封装好的算法,可以轻松地构建机器学习应用。它提供了非常丰富的机器学习...
阅读全文
摘要:第四篇|Spark-Streaming编程指南(1)对Spark Streaming执行机制、Transformations与Out...
阅读全文