……

随笔分类 -  实时数据仓库

sparkstreaming+flinkstreaming实时数仓
美团外卖离线数仓建设实践
摘要:导读:美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对 阅读全文
posted @ 2023-03-24 13:49 大码王 阅读(636) 评论(0) 推荐(3) 编辑
实时数据仓库建设方案详细(一):数据仓库建设(下)
摘要:问题导读:1、常用的算法模型有哪些? 2、如何对数据进行监控管理? 3、大数据平台的数据服务是怎样的? 1.5 数据分析建模 伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视提到了前所未有的高度。数据已经作为企业、事业单位的重要资产被广泛应用于盈利分析与预测、客户关系管理、合规 阅读全文
posted @ 2022-04-19 17:20 大码王 阅读(235) 评论(0) 推荐(0) 编辑
实时数仓建设方案详细(一):数据仓库建设(上)
摘要:问题导读:1、数据仓库的总体架构是怎样的? 2、如何进行数据采集? 3、数据是如何进行加工和处理的?1.1 数据仓库总体架构专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给 阅读全文
posted @ 2022-04-19 17:19 大码王 阅读(570) 评论(0) 推荐(0) 编辑
项目实战从0到1之离线和实时数仓体系(30)
摘要:一 什么是数据仓库 1.1 数据仓库概念 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 1.2 数据仓库特点 1.2.1面向主题 普通的操作型数据库主要面向事务 阅读全文
posted @ 2020-12-09 11:03 大码王 阅读(1331) 评论(2) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink (29)UDF实现
摘要:1、pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instan 阅读全文
posted @ 2020-11-04 10:53 大码王 阅读(962) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink(28)Flink 1.11 新特性:流批一体的 Hive 数仓
摘要:Table/SQL 的 blink planner 成为默认 Planner。 Flink 1.11 中流计算结合 Hive 批处理数仓,给离线数仓带来 Flink 流处理实时且 Exactly-once 的能力。另外,Flink 1.11 完善了 Flink 自身的 Filesystem conn 阅读全文
posted @ 2020-09-28 15:01 大码王 阅读(676) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之SparkStreaming(27)使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
摘要:Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的, 阅读全文
posted @ 2020-09-08 17:22 大码王 阅读(347) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink (26)Flink采集kafka数据后存到mongodb
摘要:实体类: import java.io.Serializable; public class FlinkDao implements Serializable { private String id; private String startMoney; private String startTi 阅读全文
posted @ 2020-09-08 16:18 大码王 阅读(1632) 评论(0) 推荐(1) 编辑
项目实战 从 0 到 1 学习之Flink(25)Flink从redis中获取数据作为source源
摘要:redis中的数据:需要实现SourceFunction接口,指定泛型<>,也就是获取redis里的数据,处理完后的数据输入的数据类型 这里我们需要的是(我们需要返回kv对的,就要考虑HashMap)pom.xml <!-- https://mvnrepository.com/artifact/re 阅读全文
posted @ 2020-09-08 16:08 大码王 阅读(816) 评论(0) 推荐(0) 编辑
项目实战从 0 到 1 学习之Flink (24)Flink将kafka的数据存到redis中
摘要:1、依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.7.2</flink.version> <slf4j.version>1.7.7</slf4j. 阅读全文
posted @ 2020-09-08 16:06 大码王 阅读(587) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink (23)Flink 读取hive并写入hive
摘要:1,读取实现了,也是找的资料,核心就是实现了 HCatInputFormatHCatInputFormatBase 上面这两个类,底层也是 继承实现了 RichInputFormat: public abstract class HCatInputFormatBase<T> extends Rich 阅读全文
posted @ 2020-09-08 15:49 大码王 阅读(4084) 评论(1) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink(22)读mysql并写入mysql
摘要:在Flink文档中,提供connector读取源数据和把处理结果存储到外部系统中。但是没有提供数据库的connector,如果要读写数据库,官网给出了异步IO(Asynchronous I/O)专门用于访问外部数据,详细可看: https://ci.apache.org/projects/flink 阅读全文
posted @ 2020-09-08 15:41 大码王 阅读(649) 评论(1) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink (21)Flink读HBase并写入HBase
摘要:这里读HBase提供两种方式,一种是继承RichSourceFunction,重写父类方法,一种是实现OutputFormat接口,具体代码如下: 方式一:继承RichSourceFunction package com.my.flink.utils.streaming.hbase; import 阅读全文
posted @ 2020-09-08 15:38 大码王 阅读(865) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink (20)Flink读取hdfs文件
摘要:接一下以一个示例配置来介绍一下如何以Flink连接HDFS 1. 依赖HDFS pom.xml 添加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-hadoop-compatibility_2.11</art 阅读全文
posted @ 2020-09-08 15:33 大码王 阅读(3102) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink(19) Flink 读取Kafka生成的数据,并进行汇总
摘要:今天介绍用 Flink 读取Kafka生成的数据,并进行汇总的案例 第一步:环境准备,kafka,flink,zookeeper。我这边是用的CDH环境,kafka跟zookeeper 都安装完毕,并测试可以正常使用 第二步:用kafka创建一个生产者进行消息生产 ./kafka-console-p 阅读全文
posted @ 2020-09-08 15:27 大码王 阅读(726) 评论(0) 推荐(0) 编辑
项目实战从 0 到 1 学习之Flink (18)Flink SQL读取kafka数据并通过JDBC方式写入Clickhouse实时场景的简单实例
摘要:说明 读取kafka数据并且经过ETL后,通过JDBC存入clickhouse中 代码 定义POJO类: 12345678 public class Student { private int id; private String name; private String password; pri 阅读全文
posted @ 2020-09-08 15:22 大码王 阅读(2532) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink(17)Flink实时日志数据写入Clickhouse
摘要:一、背景 每天上百亿的日志数据实时查询是个挑战,在架构设计上采用了Kafka + Flink + Clickhouse+Redash,实现海量数据的实时分析。计算层,我们开发了基于Flink计算引擎的实时数据平台,简化开发流程,数据通过配置化实现动态Schema生成,底层数据解析统一,无需重复造轮子 阅读全文
posted @ 2020-09-08 15:19 大码王 阅读(4317) 评论(6) 推荐(0) 编辑
项目实战从 0 到 1 学习之Flink (16)Flink DataStream之Kafka数据写入HDFS,并分区到Hive
摘要:因业务要求,我们需要从Kafka中读取数据,变换后最终Sink到业务的消息队列中,为保证数据的可靠性,我们同时对Sink的结果数据,进行保存。最终选择将流数据Sink到HDFS上,在Flink中,同时也提供了HDFS Connector。下面就介绍如何将流式数据写入HDFS,同时将数据load到Hi 阅读全文
posted @ 2020-09-08 09:30 大码王 阅读(770) 评论(0) 推荐(0) 编辑
项目实战 从 0 到 1 学习之Flink(15)Flink读取kafka数据并写入HDFS
摘要:1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上。 2.内容 这里举个消费Kafka的数据的场景。比如,电商平台、游戏平台产生的用户数据,入库到Kafka中的Topic进行存储,然 阅读全文
posted @ 2020-09-07 18:22 大码王 阅读(1001) 评论(0) 推荐(0) 编辑
项目实战从 0 到 1 学习之Flink(14)Flink 读取kafka数据,写入到Hbase
摘要:概述 环境说明 scala: 2.12.8 linux下scala安装部署 flink : 1.8.1 Flink1.8.1 集群部署 kafka_2.12-2.2.0 kafka_2.12-2.2.0 集群部署 hbase 2.1 hbase 2.1 环境搭建–完全分布式模式 Advanced - 阅读全文
posted @ 2020-09-07 18:19 大码王 阅读(944) 评论(0) 推荐(0) 编辑

复制代码