08 2020 档案

摘要:用户行为日志分析是实时数据处理很常见的一个应用场景,比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系... 阅读全文
posted @ 2020-08-30 21:35 大数据技术与数仓 阅读(418) 评论(0) 推荐(0)
摘要:用户行为日志分析是实时数据处理很常见的一个应用场景,比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系统,包括架构设计与代码实现。本文分享将完整呈现日志分析系统的数据处理链路,通过本文,你可以了解到: 基于discuz搭建一个论坛平台 Flume日志收集系统使用方式 A 阅读全文
posted @ 2020-08-30 21:35 大数据技术与数仓 阅读(2294) 评论(0) 推荐(0)
摘要:元数据管理是数据仓库的核心,它不仅定义了数据仓库有什么,还指明了数据仓库中数据的内容和位置,刻画了数据的提取和转换规则,存储了与数据... 阅读全文
posted @ 2020-08-22 16:24 大数据技术与数仓 阅读(1140) 评论(0) 推荐(0)
摘要:SQL 语言无处不在。SQL 已经不仅仅是技术人员的专属技能了,似乎人人都会写SQL,就如同人人都是产品经理一样。如果你是做后台开发... 阅读全文
posted @ 2020-08-22 15:25 大数据技术与数仓 阅读(368) 评论(0) 推荐(0)
摘要:实时数仓主要是为了... 阅读全文
posted @ 2020-08-17 08:31 大数据技术与数仓 阅读(1561) 评论(0) 推荐(0)
摘要:实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然... 阅读全文
posted @ 2020-08-16 23:11 大数据技术与数仓 阅读(1044) 评论(1) 推荐(1)
摘要:Flink1.11引入了CDC的connector,通过这种方式可以很方便地捕获变化的数据,大大简化了数据处理的流程。Flink1.... 阅读全文
posted @ 2020-08-13 22:54 大数据技术与数仓 阅读(2699) 评论(2) 推荐(1)
摘要:Fl... 阅读全文
posted @ 2020-08-13 08:30 大数据技术与数仓 阅读(2120) 评论(0) 推荐(0)
摘要:... 阅读全文
posted @ 2020-08-13 08:30 大数据技术与数仓 阅读(285) 评论(0) 推荐(0)
摘要:6本文会对HBase的基本原理进行剖析,通过本文你可以了解到: CAP理论NoSQL出现的原因HBase的特点及使用场景HBase的... 阅读全文
posted @ 2020-08-12 22:58 大数据技术与数仓 阅读(466) 评论(0) 推荐(0)
摘要:... 阅读全文
posted @ 2020-08-11 08:30 大数据技术与数仓 阅读(221) 评论(0) 推荐(0)
摘要:在Ralph Kimball和Margy Ross 的《数据仓库工具包》一书中,提到了数据仓库设计中的10个常见陷阱,本文针对每个陷... 阅读全文
posted @ 2020-08-07 23:15 大数据技术与数仓 阅读(159) 评论(0) 推荐(0)
摘要:维表是数仓中的一个概念,维表中的维度属性是观察数据的角度,在建设离线数仓的时候,通常是将维表与事实表进行关联构建星型模型。在实时数仓... 阅读全文
posted @ 2020-08-07 23:14 大数据技术与数仓 阅读(5235) 评论(0) 推荐(1)
摘要:LeeCode数据库部分SQL题目总结 176. 第二高的薪水 描述 编写一个 SQL 查询,获取 Employee 表中第二高的... 阅读全文
posted @ 2020-08-07 23:07 大数据技术与数仓 阅读(183) 评论(0) 推荐(0)
摘要:在Hive的开窗函数实战的文章中,主要介绍了Hive的分析函数的基本使用。本文是这篇文章的延续,涵盖了Hive所有的条件函数和日期函... 阅读全文
posted @ 2020-08-07 23:04 大数据技术与数仓 阅读(1024) 评论(0) 推荐(0)
摘要:本文主要介绍Hive的架构和以及HQL的查询阶段,主要内容包括: Hive的架构架构中的相关组件介绍HQL的查询阶段 Hive的架构... 阅读全文
posted @ 2020-08-07 23:02 大数据技术与数仓 阅读(382) 评论(0) 推荐(0)
摘要:当我们在使用Flink的时候,避免不了要和时间(time)、水位线(watermarks)打交道,理解这些概念是开发分布式流处理应用... 阅读全文
posted @ 2020-08-07 22:52 大数据技术与数仓 阅读(793) 评论(0) 推荐(0)
摘要:Flink总共有三种时间语义:Processing time(处理时间)、Event time(事件时间)以及Ingestion t... 阅读全文
posted @ 2020-08-07 22:46 大数据技术与数仓 阅读(439) 评论(0) 推荐(0)
摘要:在Flink Table API & SQL编程指南(1)一文中介绍了Flink Table API &SQL的一些基本的概念和通用... 阅读全文
posted @ 2020-08-07 22:44 大数据技术与数仓 阅读(217) 评论(0) 推荐(0)
摘要:SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤... 阅读全文
posted @ 2020-08-07 13:46 大数据技术与数仓 阅读(241) 评论(0) 推荐(0)
摘要:... 阅读全文
posted @ 2020-08-07 08:30 大数据技术与数仓 阅读(202) 评论(0) 推荐(1)
摘要:本文... 阅读全文
posted @ 2020-08-05 08:30 大数据技术与数仓 阅读(130) 评论(0) 推荐(0)
摘要:本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘... 阅读全文
posted @ 2020-08-04 22:47 大数据技术与数仓 阅读(522) 评论(0) 推荐(0)
摘要:MLlib是Spa... 阅读全文
posted @ 2020-08-04 08:28 大数据技术与数仓 阅读(150) 评论(0) 推荐(0)
摘要:MLlib是Spark提供的一个机器学习库,通过调用MLlib封装好的算法,可以轻松地构建机器学习应用。它提供了非常丰富的机器学习... 阅读全文
posted @ 2020-08-03 22:51 大数据技术与数仓 阅读(329) 评论(0) 推荐(0)
摘要:... 阅读全文
posted @ 2020-08-03 08:30 大数据技术与数仓 阅读(109) 评论(0) 推荐(0)
摘要:第四篇|Spark-Streaming编程指南(1)对Spark Streaming执行机制、Transformations与Out... 阅读全文
posted @ 2020-08-02 18:51 大数据技术与数仓 阅读(133) 评论(0) 推荐(0)