一y样

2023年4月3日

摘要： 1. 案例sql select A,B from testdata2 where A>2 对应的执行计划： == Analyzed Logical Plan == Project [A#23, B#24] +- Filter (A#23 > 2) +- SubqueryAlias testdata2 阅读全文

posted @ 2023-04-03 22:45 一y样阅读(110) 评论(0) 推荐(0)

2022年7月13日

公司windows电脑搭建spark开发环境遇到的问题

摘要：报错如下： The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: Caused by: java.lang.RuntimeException: The root scratch dir 阅读全文

posted @ 2022-07-13 22:26 一y样阅读(234) 评论(0) 推荐(1)

2022年6月4日

spark源码学习--------day01源码环境安装(window10)

摘要： 1. IDEA安装安装破解的具体步骤见连接:https://baijiahao.baidu.com/s?id=1727424621934000354&wfr=spider&for=pc 2. 安装JDK 已安装 3. 安装maven 3.1 官网下载maven 下载地址:http://maven. 阅读全文

posted @ 2022-06-04 22:25 一y样阅读(580) 评论(0) 推荐(0)

2020年11月17日

数仓学习之基础篇

摘要： 1. 什么是数据仓库1.1 什么是数据库 - 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库 - 数据库是长期存储在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和存储在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在阅读全文

posted @ 2020-11-17 22:11 一y样阅读(534) 评论(0) 推荐(0)

2020年7月9日

flink双流join

摘要：一. 基本概念(https://blog.csdn.net/xianzhen376/article/details/89810958) 双流Join是Flink面试的高频问题。一般情况下说明以下几点就可以hold了： 1.join大体分类有两种：window join和interval join。w 阅读全文

posted @ 2020-07-09 23:23 一y样阅读(1791) 评论(0) 推荐(0)

canal从mysql拉取数据，并以protobuf的格式往kafka中写数据

摘要：大致思路： canal去mysql拉取数据，放在canal所在的节点上，并且自身对外提供一个tcp服务，我们只要写一个连接该服务的客户端，去拉取数据并且指定往kafka写数据的格式就能达到以protobuf的格式往kafka中写数据的要求。 1. 配置canal（/bigdata/canal/con 阅读全文

posted @ 2020-07-09 00:09 一y样阅读(1797) 评论(0) 推荐(1)

2020年7月3日

flink-----实时项目---day09-------1.Flink执行计划图

摘要： druid 阅读全文

posted @ 2020-07-03 22:18 一y样阅读(305) 评论(0) 推荐(0)

flink-----实时项目---day08-------

摘要： flinkSql，flinkTable 阅读全文

posted @ 2020-07-03 14:35 一y样阅读(261) 评论(0) 推荐(0)

2020年6月30日

flink-----实时项目---day07-----1.Flink的checkpoint原理分析 2. 自定义两阶段提交sink（MySQL） 3 将数据写入Hbase（使用幂等性结合at least Once实现精确一次性语义） 4 ProtoBuf

摘要： 1.Flink中exactly once实现原理分析生产者从kafka拉取数据以及消费者往kafka写数据都需要保证exactly once。目前flink中支持exactly once的source不多，有kafka source；能实现exactly once的sink也不多，如kafka s 阅读全文

posted @ 2020-06-30 16:45 一y样阅读(2574) 评论(2) 推荐(0)

2020年6月28日

flink-----实时项目---day06-------1. 获取窗口迟到的数据 2.双流join（inner join和left join（有点小问题）） 3 订单Join案例（订单数据接入到kafka，订单数据的join实现，订单数据和迟到数据join的实现）

摘要： 1. 获取窗口迟到的数据主要流程就是给迟到的数据打上标签，然后使用相应窗口流的实例调用sideOutputLateData(lateDataTag)，从而获得窗口迟到的数据，进而进行相关的计算，具体代码见下 WindowLateDataDemo package cn._51doit.flink.d 阅读全文

posted @ 2020-06-28 22:41 一y样阅读(2040) 评论(0) 推荐(0)

公告